Przejdź do treści

Cross-modal text and visual generation: A systematic review. Part 1: Image to text

W publikacji dokonano przeglądu istniejącej literatury dotyczącej generowania tekstu z danych wizualnych pod egidą “generowania wielomodalnego”, która to nazwa pozwala porównać i skontrastować różnorodne metody traktujące dane wizualne jako dane wejściowe i produkujące tekst jako dane wyjściowe, jednocześnie nie ograniczając analizy do wąsko zdefiniowanych obszarów, takich jak generowanie podpisów do obrazów. Podzielono metody generowania tekstu z danych wizualnych na generatywne i niegeneratywne generowanie podpisów do obrazów oraz na dialog wizualny, z dalszymi podziałami nakreślonymi dla istotnych obszarów. W artykule opisano metody bazowe i omówiono istniejące badania w świetle tych metod bazowych, podkreślając zarówno istotne elementy wspólne pomiędzy różnymi podejściami, jak i istotne różnice w stosunku do metod bazowych.

Autorzy z PW:

Maciej Żelaszczyk, Jacek Mańdziuk

Czasopismo:

Information Fusion

Rok wydania: