Precise parameter localization for textual generation in diffusion models
Najnowsze modele dyfuzji potrafią syntetyzować fotorealistyczne obrazy ze wkomponowanym wysokiej jakości tekstem. Co zaskakujące, wykazujemy poprzez analizę aktywacji w warstwach uwagi, że mniej niż 1% parametrów modelu wpływa na generowanie treści tekstowych w obrazach. Na podstawie tej obserwacji poprawiamy efektywność i wydajność generowania tekstu, koncentrując się na warstwach uwagi krzyżowej w modelach dyfuzji. Przedstawiamy kilka zastosowań wynikających z lokalizacji warstw odpowiedzialnych za generowanie treści tekstowych. Najpierw pokazujemy, że dostrajanie modelu oparte na metodzie LoRA, przeprowadzone wyłącznie na zlokalizowanych warstwach, dodatkowo wzmacnia ogólne możliwości generowania tekstu, przy zachowaniu jakości i różnorodności generowanych obrazów. Następnie demonstrujemy, jak można wykorzystać zlokalizowane warstwy do edycji treści tekstowej w wygenerowanych obrazach. Wreszcie rozszerzamy ten pomysł na praktyczne zastosowanie, polegające na bezkosztownym zapobieganiu generowania toksycznego tekstu. W odróżnieniu od wcześniejszych prac, nasze podejście do lokalizacji parametrów jest stosowalne do różnych architektur modeli dyfuzji, w tym sieci typu U-Net (np. SDXL i DeepFloyd IF) oraz w modelach opartych na transformerach (np. Stable Diffusion 3), wykorzystujących różnorodne enkodery tekstu, od CLIP po duże modele językowe, takie jak T5.
Materiał konferencyjny:
Proceedings of the International Conference on Representation Learning 2025 (ICLR 2025)
Autorzy z PW:
Łukasz Piotr Staniszewski, Bartosz Cywiński, Kamil Deja
Dyscyplina:
Rok wydania: