Cross-Modal Retrieval

Cross-Modal Retrieval is used for implementing a retrieval task across different modalities. such as image-text, video-text, and audio-text Cross-Modal Retrieval. The main challenge of Cross-Modal Retrieval is the modality gap and the key solution of Cross-Modal Retrieval is to generate new representations from different modalities in the shared subspace, such that new generated features can be applied in the computation of distance metrics, such as cosine distance and Euclidean distance. References: [1] Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study [2] Deep Triplet Neural Networks with Cluster-CCA for Audio-Visual Cross-modal Retrieval

Benchmarks

Libraries

Datasets

Subtasks

Most implemented papers

VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

Content

Stacked Capsule Autoencoders

Stacked Cross Attention for Image-Text Matching

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

Probabilistic Embeddings for Cross-Modal Retrieval