MAGMAX: Leveraging Model Merging for Seamless Continual Learning

W tej pracy przedstawiamy podejście do uczenia ciągłego o nazwie MagMax, które wykorzystuje łączenie modeli, aby umożliwić dużym, wstępnie wytrenowanym modelom naukę z nowych danych bez utraty wcześniej zdobytej wiedzy.

W przeciwieństwie do tradycyjnych metod uczenia ciągłego, które skupiają się na minimalizowaniu zapominania podczas treningu, MagMax łączy sekwencyjne dostrajanie modelu z selekcją wag o największej wartości, co pozwala skutecznie integrować wiedzę z różnych zadań.

Naszym pierwszym wkładem jest szczegółowa analiza technik łączenia modeli, która pokazuje, że proste podejścia, takie jak uśrednianie wag czy ich losowy wybór, mogą zaskakująco dobrze sprawdzać się w różnych scenariuszach uczenia ciągłego. Co jednak ważniejsze, przedstawiamy MagMax – nowatorską strategię łączenia modeli, która umożliwia dużym, wstępnie wytrenowanym modelom kontynuowanie nauki kolejnych zadań.

Nasze obszerne testy pokazują, że MagMax osiąga najlepsze wyniki w różnych ustawieniach, w tym w uczeniu ciągłym klas i domen.

Kod źródłowy jest dostępny na GitHubie.

Materiał konferencyjny:

Computer Vision – ECCV 2024, Proceedings, Lecture Notes In Computer Science, vol. LXXXV

Autorzy z PW:

Daniel Marczak, Tomasz Trzciński

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2024

Zobacz publikację

Zobacz więcej informacji o publikacji