Wiki-40B

Introduced in Wiki-40B: Multilingual Language Model Dataset

About this Dataset

A new multilingual language model benchmark that is composed of 40+ languages spanning several scripts and linguistic families containing round 40 billion characters and aimed to accelerate the research of multilingual modeling.

Source: Wiki-40B: Multilingual Language Model Dataset

Dataset Variants

Wiki-40B

Papers1

Wiki-40B: Multilingual Language Model Dataset

A new multilingual language model benchmark that is composed of 40+ languages spanning several scripts and linguistic families with around 40 billion characters is proposed, and the task of multilingual causal language modeling is introduced.

Dataset Loaders

EDIT

🔥

huggingface/datasets

tfpytorchjax

🔥

huggingface/datasets

tfpytorchjax

🎯

tensorflow/datasets

tfjax

Tasks