Przejdź do treści

CLIP-DINOiser: Teaching CLIP a Few DINO Tricks for Open-Vocabulary Semantic Segmentation

Popularny model CLIP wykazuje imponujące zdolności zero-shot dzięki płynnej interakcji z dowolnymi tekstowymi podpowiedziami. Jednak jego brak świadomości przestrzennej sprawia, że nie nadaje się on do gęstych zadań wizji komputerowej, takich jak semantyczna segmentacja, bez dodatkowego etapu dostrajania. Proces ten często wymaga adnotacji i może prowadzić do utraty pierwotnych właściwości modelu związanych z otwartym słownictwem.

Tymczasem metody samonadzorowanego uczenia reprezentacji wykazały dobre właściwości lokalizacyjne, osiągając je bez potrzeby stosowania ludzkich adnotacji czy jawnej superwizji. W naszej pracy łączymy zalety obu podejść i proponujemy metodę semantycznej segmentacji o otwartym słownictwie, która nie wymaga żadnych adnotacji.

Wprowadzamy lokalne ulepszenie gęstych cech MaskCLIP, które są obliczane poprzez prostą modyfikację ostatniej warstwy poolingowej CLIP. Integrujemy w nich priory lokalizacyjne wyodrębnione z cech samonadzorowanych, co znacząco poprawia wydajność MaskCLIP i pozwala uzyskać bardziej płynne wyniki. Ponadto pokazujemy, że wykorzystywane cechy samonadzorowane mogą być bezpośrednio wyuczone na podstawie cech CLIP.

Nasza metoda, CLIP-DINOiser, wymaga jedynie pojedynczego przejścia przez CLIP oraz dwóch lekkich warstw konwolucyjnych podczas wnioskowania. Nie wymaga dodatkowej superwizji ani pamięci, a mimo to osiąga najnowocześniejsze wyniki na wymagających, szczegółowych zestawach danych, takich jak COCO, Pascal Context, Cityscapes i ADE20k.

Kod pozwalający na odtworzenie naszych wyników jest dostępny pod adresem: https://github.com/wysoczanska/clip_dinoiser.

Materiał konferencyjny:

Computer Vision – ECCV 2024, Proceedings, Lecture Notes In Computer Science, vol. LVI

Autorzy z PW:

Tomasz Trzciński, Monika Wysoczańska

Rok wydania: