Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem

Dostrajanie (fine-tuning) to powszechnie stosowana technika w uczeniu głębokim, umożliwiająca przenoszenie wcześniej wytrenowanych zdolności, często wykorzystywana w modelach bazowych (foundation models). Jednak dostrajanie modeli uczenia ze wzmocnieniem (RL) pozostaje wyzwaniem.

W niniejszej pracy analizujemy dwie przyczyny słabej transferowalności. Pierwsza jest związana z utratą skuteczność w podprzestrzeni stanów starego zadania, które nie zostały odwiedzone na początkowym etapie dostrajania, mimo że przed dostrojeniem agent radził sobie w nich dobrze. W efekcie tracimy oczekiwane korzyści z transferu. Druga przyczyna jest związana z nieoptymalnym agentem bazowym, który w trakcie dostrajana w nowym zadaniu ogranicza się jedynie do małej części zdolności wcześniej wytrenowanych, na skutek czego inne ulegają zapomnieniu.

W naszej pracy identyfikujemy warunki, w których to zjawisko występuje, pokazując, że jest ono częste i w wielu przypadkach katastrofalne.

Dzięki szczegółowej analizie empirycznej, przeprowadzonej w wymagających środowiskach NetHack i Montezuma’s Revenge, wykazujemy, że standardowe techniki zachowywania wiedzy pozwalają złagodzić ten problem i pełniej wykorzystać wcześniej wytrenowane zdolności.

W szczególności w NetHack osiągamy nowy najlepszy wynik dla modeli neuronowych, poprawiając poprzedni rekord z 5K do ponad 10K punktów w scenariuszu Human Monk.

Materiał konferencyjny:

Proceedings of the 41st International Conference on Machine Learning

Autorzy z PW:

Michał Bortkiewicz, Mateusz Ostaszewski

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2024

Zobacz publikację

Zobacz więcej informacji o publikacji