Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning

Ostatnie postępy w uczeniu ze wzmocnieniem (Reinforcement Learning RL) metodami off-policy znacznie poprawiły efektywność próbkowania, głównie dzięki zastosowaniu różnych form regularyzacji, które umożliwiają więcej kroków aktualizacji gradientu niż w tradycyjnych agentach. Jednak wiele z tych technik było testowanych w ograniczonych warunkach, często na zadaniach z pojedynczych symulacyjnych benchmarków i w porównaniu z dobrze znanymi algorytmami, zamiast z szerokim zakresem podejść regularyzacyjnych. Ogranicza to nasze zrozumienie konkretnych mechanizmów napędzających ulepszenia w RL. Aby to zbadać, zaimplementowaliśmy ponad 60 różnych agentów off-policy, z których każdy integrował uznane techniki regularyzacji z najnowszych algorytmów state-of-the-art. Przetestowaliśmy tych agentów w 14 zróżnicowanych zadaniach z 2 symulacyjnych benchmarków, mierząc metryki treningowe związane z przeszacowaniem, przeuczeniem i utratą plastyczności — problemami, które motywują analizowane techniki regularyzacyjne. Nasze wyniki pokazują, że skuteczność konkretnej konfiguracji regularyzacyjnej zależy od zadania, jednak pewne kombinacje konsekwentnie wykazują solidną i ponadprzeciętną wydajność. W szczególności prosty agent Soft Actor-Critic, odpowiednio zregularyzowany, konsekwentnie znajduje politykę o lepszej wydajności w trakcie treningu, co wcześniej było osiągane głównie za pomocą podejść modelowych.

Materiał konferencyjny:

Proceedings of the 41st International Conference on Machine Learning

Autorzy z PW:

Michał Bortkiewicz, Mateusz Ostaszewski, Tomasz Trzciński

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2024

Zobacz publikację

Zobacz więcej informacji o publikacji