Reasoning Limitations of Multimodal Large Language Models. A case study of Bongard Problems
Badamy, czy wielomodalne wielkie modele językowe (MLLM) potrafią rozwiązywać problemy Bongarda, testując różne strategie na trzech zbiorach danych. Wprowadzamy nowy zbiór Bongard-RWR, który przedstawia koncepty z klasycznych problemów Bongarda w formie obrazów ze świata rzeczywistego. Eksperymenty pokazują, że MLLM mają trudności z rozpoznawaniem abstrakcyjnych konceptów zarówno w problemach syntetycznych, jak i rzeczywistych.
Materiał konferencyjny:
Proceedings of Machine Learning Research
Autorzy z PW:
Mikołaj Małkiński, Jacek Mańdziuk
Dyscyplina:
Rok wydania: