SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
Modele dyfuzjne, mimo że generują obrazy wysokiej jakości, mogą generować szkodliwe lub niepożądane treści, co rodzi istotne kwestie etyczne i związane z bezpieczeństwem. Ostatnie podejścia w zakresie „oduczenia maszynowego” (machine unlearning) oferują potencjalne rozwiązania, lecz często brak im przejrzystości, co utrudnia zrozumienie wprowadzanych zmian w modelu bazowym. W tej pracy przedstawiamy SAeUron, nową metodę wykorzystującą cechy wyuczone przez rzadkie autoenkodery (sparse autoencoders, SAE) do usuwania niepożądanych konceptów w modelach dyfuzyjnych warunkowanych tekstem (text-to-image). Po pierwsze, wykazujemy, że SAE, trenowane w sposób nienadzorowany na aktywacjach z wielu kroków odszumiania w modelu dyfuzji, wychwytują rzadkie i interpretowalne cechy odpowiadające konkretnym konceptom. Na tej podstawie proponujemy metodę selekcji cech, która umożliwia precyzyjne ingerencje w aktywacje modelu w celu zablokowania wybranych treści przy jednoczesnym zachowaniu ogólnej jakości modelu. Ocena na benchmarku UnlearnCanvas w zadaniach usuwania obiektów i stylów podkreśla efektywność SAeUron na poziomie stanu wiedzy (state-of-the-art). Ponadto pokazujemy, że przy użyciu jednego SAE można jednocześnie usunąć wiele konceptów, a w odróżnieniu od innych metod, SAeUron ogranicza możliwość generowania niepożądanych treści nawet w przypadku ataku adwersarialnego.
Materiał konferencyjny:
Proceedings of the 42nd International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 267
Autorzy z PW:
Bartosz Cywiński, Kamil Deja
Dyscyplina:
Rok wydania: