Cross-modal text and visual generation: A systematic review. Part 1: Image to text

W publikacji dokonano przeglądu istniejącej literatury dotyczącej generowania tekstu z danych wizualnych pod egidą “generowania wielomodalnego”, która to nazwa pozwala porównać i skontrastować różnorodne metody traktujące dane wizualne jako dane wejściowe i produkujące tekst jako dane wyjściowe, jednocześnie nie ograniczając analizy do wąsko zdefiniowanych obszarów, takich jak generowanie podpisów do obrazów. Podzielono metody generowania tekstu z danych wizualnych na generatywne i niegeneratywne generowanie podpisów do obrazów oraz na dialog wizualny, z dalszymi podziałami nakreślonymi dla istotnych obszarów. W artykule opisano metody bazowe i omówiono istniejące badania w świetle tych metod bazowych, podkreślając zarówno istotne elementy wspólne pomiędzy różnymi podejściami, jak i istotne różnice w stosunku do metod bazowych.

Artykuł:

Information Fusion

Autorzy z PW:

Maciej Żelaszczyk, Jacek Mańdziuk

Dyscyplina:

informatyka techniczna i telekomunikacja

Rok wydania:

2023

Zobacz publikację

Zobacz więcej informacji o publikacji