Przejdź do treści

Sparser, better, deeper, stronger: improving static sparse training with exact orthogonal initialization

Statyczny trening rzadki (static sparse training) ma na celu trenowanie rzadkich modeli sieci neuronowych i w ostatnich latach osiągnął imponujące wyniki. Kluczowym elementem konstrukcyjnym w tym podejściu jest tzw. rzadka inicjalizacja (sparse initialization), która określa trenowalną podstrukturę sieci poprzez binarną maskę. Obecne metody zazwyczaj wybierają taką maskę na podstawie uprzednio zdefiniowanej gęstej inicjalizacji. Takie podejście może jednak nie wykorzystywać w pełni potencjalnego wpływu maski na proces optymalizacji.

Alternatywnym kierunkiem, inspirowanym badaniami nad izometrią dynamiczną (dynamical isometry), jest wprowadzenie ortogonalności w rzadkiej podsieci, co pomaga w stabilizacji sygnału gradientu. W tej pracy proponujemy Exact Orthogonal Initialization (EOI) – nowy schemat rzadkiej inicjalizacji ortogonalnej, oparty na kompozycji losowych rotacji Givensa. W przeciwieństwie do innych istniejących podejść, nasza metoda zapewnia dokładną (nieprzybliżoną) ortogonalność i umożliwia tworzenie warstw o dowolnym stopniu rzadkości.

W eksperymentach wykazujemy wyższą skuteczność i efektywność EOI w porównaniu do powszechnie stosowanych technik rzadkiej inicjalizacji. W szczególności, nasza metoda pozwala trenować silnie rzadkie 1000-warstwowe sieci MLP i CNN bez użycia połączeń rezydualnych ani technik normalizacyjnych, podkreślając kluczową rolę odpowiedniej inicjalizacji wag w statycznym treningu rzadkim – obok wyboru samej maski.

Materiał konferencyjny:

Proceedings of the 41st International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 235

Autorzy z PW:

Filip Szatkowski 

Rok wydania: