Document Summarization

Automatic Document Summarization is the task of rewriting a document into its shorter form while still retaining its important content. The most popular two paradigms are extractive approaches and abstractive approaches. Extractive approaches generate summaries by extracting parts of the original document (usually sentences), while abstractive methods may generate new words or phrases which are not in the original document. Source: HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

Benchmarks

Libraries

Datasets

Subtasks

Most implemented papers

Get To The Point: Summarization with Pointer-Generator Networks

Content

Text Summarization with Pretrained Encoders

Unified Language Model Pre-training for Natural Language Understanding and Generation

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

Extending Context Window of Large Language Models via Positional Interpolation

SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents

Bottom-Up Abstractive Summarization

Generating Wikipedia by Summarizing Long Sequences