AVCaps: An audio-visual dataset with modality-specific captions

Beskrivning

The AVCaps dataset is an audio-visual captioning resource designed to advance research in multimodal machine perception. Derived from the VidOR dataset, it features 2061 video clips spanning a total of 28.8 hours.
Visa mer

Publiceringsår

2024

Typ av data

Upphovspersoner

Aapo Hakala - Upphovsperson

Irene Martin Morato - Upphovsperson

Parthasaarathy Ariyakulam Sudarsanam - Upphovsperson

Tuomas Virtanen - Upphovsperson

Zenodo - Utgivare

Projekt

Övriga uppgifter

Vetenskapsområden

Data- och informationsvetenskap

Språk

engelska

Öppen tillgång

Öppet

Licens

Creative Commons Attribution 4.0 International (CC BY 4.0)

Nyckelord

multimodal dataset, audio-visual captioning

Ämnesord

Temporal täckning

undefined

Relaterade till denna forskningsdata