Reasoning Limitations of Multimodal Large Language Models. A case study of Bongard Problems

Badamy, czy wielomodalne wielkie modele językowe (MLLM) potrafią rozwiązywać problemy Bongarda, testując różne strategie na trzech zbiorach danych. Wprowadzamy nowy zbiór Bongard-RWR, który przedstawia koncepty z klasycznych problemów Bongarda w formie obrazów ze świata rzeczywistego. Eksperymenty pokazują, że MLLM mają trudności z rozpoznawaniem abstrakcyjnych konceptów zarówno w problemach syntetycznych, jak i rzeczywistych.

Materiał konferencyjny:

Proceedings of Machine Learning Research

Autorzy z PW:

Mikołaj Małkiński, Jacek Mańdziuk

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2025

Zobacz publikację

Zobacz więcej informacji o publikacji