Cross-modal text and visual generation: A systematic review. Part 1: Image to text
W publikacji dokonano przeglądu istniejącej literatury dotyczącej generowania tekstu z danych wizualnych pod egidą “generowania wielomodalnego”, która to nazwa pozwala porównać i skontrastować różnorodne metody traktujące dane wizualne jako dane wejściowe i produkujące tekst jako dane wyjściowe, jednocześnie nie ograniczając analizy do wąsko zdefiniowanych obszarów, takich jak generowanie podpisów do obrazów. Podzielono metody generowania tekstu z danych wizualnych na generatywne i niegeneratywne generowanie podpisów do obrazów oraz na dialog wizualny, z dalszymi podziałami nakreślonymi dla istotnych obszarów. W artykule opisano metody bazowe i omówiono istniejące badania w świetle tych metod bazowych, podkreślając zarówno istotne elementy wspólne pomiędzy różnymi podejściami, jak i istotne różnice w stosunku do metod bazowych.
Artykuł:
Information Fusion
Autorzy z PW:
Maciej Żelaszczyk, Jacek Mańdziuk
Dyscyplina:
Rok wydania: