Przejdź do treści

Adversarial attacks and defenses in explainable artificial intelligence: A survey

Wyjaśnialne metody sztucznej inteligencji (XAI) są przedstawiane jako lekarstwo na debugowanie i zaufanie do modeli statystycznych i głębokiego uczenia się, a także interpretowanie ich prognoz. Jednak ostatnie postępy w dziedzinie przeciwstawnego uczenia maszynowego (AdvML) podkreślają ograniczenia i słabości najnowocześniejszych metod wyjaśniania, stawiając pod znakiem zapytania ich bezpieczeństwo i wiarygodność. Możliwość manipulowania, oszukiwania lub fairwashingu dowodów rozumowania modelu ma szkodliwe konsekwencje, gdy jest stosowana w podejmowaniu decyzji o wysokiej stawce i odkrywaniu wiedzy. Niniejszy przegląd zawiera kompleksowy przegląd badań dotyczących ataków kontradyktoryjnych na wyjaśnienia modeli uczenia maszynowego, a także metryk uczciwości. Wprowadzamy ujednoliconą notację i taksonomię metod, ułatwiając wspólną płaszczyznę dla badaczy i praktyków z przecinających się dziedzin badań AdvML i XAI. Omawiamy, jak bronić się przed atakami i projektować solidne metody interpretacji. Przedstawiamy listę istniejących niepewności w XAI i nakreślamy nowe kierunki badań w przeciwstawnych XAI (AdvXAI). Przyszłe prace powinny dotyczyć poprawy metod wyjaśniania i protokołów oceny w celu uwzględnienia zgłoszonych kwestii bezpieczeństwa. 

Artykuł:

Information Fusion

Autorzy z PW:

Przemysław Biecek 

Rok wydania: