Interpreting CLIP with Hierarchical Sparse Autoencoders

Autokodery rzadkie (SAE) są przydatne do wykrywania i sterowania interpretowalnymi funkcjami w sieciach neuronowych, ze szczególnym potencjałem do zrozumienia złożonych reprezentacji multimodalnych. Biorąc pod uwagę ich zdolność do odkrywania interpretowalnych cech, SAE są szczególnie cenne w analizie modeli wizyjno-językowych (np. CLIP i SigLIP), które są podstawowymi elementami składowymi w nowoczesnych systemach na dużą skalę, ale pozostają trudne do interpretacji i kontroli. Jednak obecne metody SAE są ograniczone przez optymalizację zarówno jakości rekonstrukcji, jak i rzadkości jednocześnie, ponieważ opierają się na tłumieniu aktywacji lub sztywnych ograniczeniach rzadkości. W tym celu przedstawiamy Matryoshka SAE (MSAE), nową architekturę, która uczy się hierarchicznych reprezentacji na wielu ziarnistościach jednocześnie, umożliwiając bezpośrednią optymalizację obu wskaźników bez kompromisów. MSAE ustanawia najnowocześniejszą granicę Pareto między jakością rekonstrukcji a rzadkością dla CLIP, osiągając 0,99 podobieństwa cosinusowego i mniej niż 0,1 frakcji wariancji niewyjaśnionej przy zachowaniu 80% rzadkości. Na koniec demonstrujemy użyteczność MSAE jako narzędzia do interpretacji i kontrolowania CLIP poprzez wyodrębnienie ponad 120 pojęć semantycznych z jego reprezentacji w celu przeprowadzenia wyszukiwania podobieństwa opartego na pojęciach i analizy uprzedzeń w dalszych zadaniach, takich jak CelebA.

Materiał konferencyjny:

Proceedings of Machine Learning Research

Autorzy z PW:

Vladimir Zaigrajew, Przemysław Biecek

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2025

Zobacz publikację

Zobacz więcej informacji o publikacji