The Tunnel Effect: Building Data Representations in Deep Neural Networks
Głębokie sieci neuronowe są powszechnie znane ze swojej niezwykłej skuteczności w różnych zadaniach, a panuje przekonanie, że głębsze sieci w naturalny sposób uczą się bardziej złożonych reprezentacji danych. W niniejszej pracy pokazujemy, że wystarczająco głębokie sieci trenowane do nadzorowanej klasyfikacji obrazów dzielą się na dwie odrębne części, które w różny sposób przyczyniają się do powstawania reprezentacji danych. Początkowe warstwy tworzą reprezentacje liniowo separowalne, podczas gdy kolejne warstwy, które określamy jako tunel, kompresują te reprezentacje i mają minimalny wpływ na ogólną wydajność. Przeprowadzone przez nas badania empiryczne pokazują, że tunel pojawia się we wczesnych etapach procesu treningowego, a jego głębokość zależy od relacji między pojemnością sieci a złożonością zadania. Ponadto pokazujemy, że tunel pogarsza uogólnianie na dane spoza rozkładu i omawiamy jego konsekwencje dla uczenia ciągłego.
Materiał konferencyjny:
Advances in Neural Information Processing Systems 36. 37th Conference on Neural Information Processing Systems (NeurIPS 2023)
Autorzy z PW:
Wojciech Masarczyk, Mateusz Ostaszewski, Tomasz Trzciński
Dyscyplina:
Rok wydania: