AVCaps: An audio-visual dataset with modality-specific captions
Beskrivning
The AVCaps dataset is an audio-visual captioning resource designed to advance research in multimodal machine perception. Derived from the VidOR dataset, it features 2061 video clips spanning a total of 28.8 hours.
Visa merPubliceringsår
2024
Typ av data
Upphovspersoner
Aapo Hakala - Upphovsperson
Irene Martin Morato - Upphovsperson
Parthasaarathy Ariyakulam Sudarsanam - Upphovsperson
Tuomas Virtanen - Upphovsperson
Zenodo - Utgivare
Projekt
Övriga uppgifter
Vetenskapsområden
Data- och informationsvetenskap
Språk
engelska
Öppen tillgång
Öppet