InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding (2024-01-01T00:00:00.000000Z)

TL;DR

This work scales both data and model size for the InternVideo2, a model that outperforms others on various video-related captioning, dialogue, and long video understanding benchmarks, highlighting its ability to reason and comprehend long temporal contexts.

Authors

Jiashuo Yu

6 papers

Yali Wang

11 papers

Kunchang Li

7 papers

Yinan He

7 papers

Yi Wang

2 papers

Zun Wang

4 papers

Jilan Xu

4 papers

Yu Qiao

3 papers

Xinhao Li

2 papers

Yifei Huang

2 papers

Guo Chen

2 papers

Baoqi Pei

2 papers

Hongjie Zhang

4 papers

Limin Wang

2 papers

Rongkun Zheng

1 papers

Yansong Shi

1 papers

Tianxiang Jiang

1 papers

Songze Li

1 papers

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

TL;DR

Authors

Field of Study

Journal Information

Name

Volume

Venue Information

Name

Type

URL

Alternate Names