SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

Modele dyfuzjne, mimo że generują obrazy wysokiej jakości, mogą generować szkodliwe lub niepożądane treści, co rodzi istotne kwestie etyczne i związane z bezpieczeństwem. Ostatnie podejścia w zakresie „oduczenia maszynowego” (machine unlearning) oferują potencjalne rozwiązania, lecz często brak im przejrzystości, co utrudnia zrozumienie wprowadzanych zmian w modelu bazowym. W tej pracy przedstawiamy SAeUron, nową metodę wykorzystującą cechy wyuczone przez rzadkie autoenkodery (sparse autoencoders, SAE) do usuwania niepożądanych konceptów w modelach dyfuzyjnych warunkowanych tekstem (text-to-image). Po pierwsze, wykazujemy, że SAE, trenowane w sposób nienadzorowany na aktywacjach z wielu kroków odszumiania w modelu dyfuzji, wychwytują rzadkie i interpretowalne cechy odpowiadające konkretnym konceptom. Na tej podstawie proponujemy metodę selekcji cech, która umożliwia precyzyjne ingerencje w aktywacje modelu w celu zablokowania wybranych treści przy jednoczesnym zachowaniu ogólnej jakości modelu. Ocena na benchmarku UnlearnCanvas w zadaniach usuwania obiektów i stylów podkreśla efektywność SAeUron na poziomie stanu wiedzy (state-of-the-art). Ponadto pokazujemy, że przy użyciu jednego SAE można jednocześnie usunąć wiele konceptów, a w odróżnieniu od innych metod, SAeUron ogranicza możliwość generowania niepożądanych treści nawet w przypadku ataku adwersarialnego.

Materiał konferencyjny:

Proceedings of the 42nd International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 267

Autorzy z PW:

Bartosz Cywiński, Kamil Deja

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2025

Zobacz publikację

Zobacz więcej informacji o publikacji