VideosTexts

TVQA+

Introduced in TVQA+: Spatio-Temporal Grounding for Video Question Answering

About this Dataset

TVQA+ contains 310.8K bounding boxes, linking depicted objects to visual concepts in questions and answers.

Source: TVQA+: Spatio-Temporal Grounding for Video Question Answering Image Source: https://github.com/jayleicn/TVQAplus

Source: TVQA+: Spatio-Temporal Grounding for Video Question Answering

Dataset Variants

TVQATVQA+

Papers1

TVQA+: Spatio-Temporal Grounding for Video Question Answering

By performing this joint task, the proposed Spatio-Temporal Answerer with Grounded Evidence with STAGE model is able to produce insightful and interpretable spatio-temporal attention visualizations.

Dataset Loaders

EDIT

🔥

jayleicn/TVQAplus

pytorch

Tasks

EDIT

Question Answering Zero-Shot Learning Visual Question Answering (VQA)Video Question Answering Zero-Shot Video Question Answer

Similar Datasets

GLUE

MultiNLI

Penn Treebank

Statistics

Papers

1

Tasks

128

License

Unknown

Modalities

VideosTexts