AVCaps: An audio-visual dataset with modality-specific captions

Beskrivning

The AVCaps dataset is an audio-visual captioning resource designed to advance research in multimodal machine perception. Derived from the VidOR dataset, it features 2061 video clips spanning a total of 28.8 hours.

Visa mer

Publiceringsår

2024

Typ av data

Upphovspersoner

Tammerfors universitet

Aapo Hakala - Upphovsperson

Irene Martin Morato - Upphovsperson

Parthasaarathy Ariyakulam Sudarsanam - Upphovsperson

Tuomas Virtanen - Upphovsperson

Zenodo - Utgivare

Projekt

Övriga uppgifter

Vetenskapsområden

Data- och informationsvetenskap

Språk

engelska

Öppen tillgång

Öppet

Licens

Creative Commons Attribution 4.0 International (CC BY 4.0)

Nyckelord

Computer and information sciences

Ämnesord

Temporal täckning

undefined