MAGMAX: Leveraging Model Merging for Seamless Continual Learning
W tej pracy przedstawiamy podejście do uczenia ciągłego o nazwie MagMax, które wykorzystuje łączenie modeli, aby umożliwić dużym, wstępnie wytrenowanym modelom naukę z nowych danych bez utraty wcześniej zdobytej wiedzy.
W przeciwieństwie do tradycyjnych metod uczenia ciągłego, które skupiają się na minimalizowaniu zapominania podczas treningu, MagMax łączy sekwencyjne dostrajanie modelu z selekcją wag o największej wartości, co pozwala skutecznie integrować wiedzę z różnych zadań.
Naszym pierwszym wkładem jest szczegółowa analiza technik łączenia modeli, która pokazuje, że proste podejścia, takie jak uśrednianie wag czy ich losowy wybór, mogą zaskakująco dobrze sprawdzać się w różnych scenariuszach uczenia ciągłego. Co jednak ważniejsze, przedstawiamy MagMax – nowatorską strategię łączenia modeli, która umożliwia dużym, wstępnie wytrenowanym modelom kontynuowanie nauki kolejnych zadań.
Nasze obszerne testy pokazują, że MagMax osiąga najlepsze wyniki w różnych ustawieniach, w tym w uczeniu ciągłym klas i domen.
Kod źródłowy jest dostępny na GitHubie.
Materiał konferencyjny:
Computer Vision – ECCV 2024, Proceedings, Lecture Notes In Computer Science, vol. LXXXV
Autorzy z PW:
Daniel Marczak, Tomasz Trzciński
Dyscyplina:
Rok wydania: