natural-language-processing-3

Data Integration

3260 papers • 126 benchmarks • 313 datasets

Data integration (also called information integration) is the process of consolidating data from a set of heterogeneous data sources into a single uniform data set (materialized integration) or view on the data (virtual integration). Data integration pipelines involve subtasks such as schema matching, table annotation, entity resolution, value normalization, data cleansing, and data fusion. Application domains of data integration include data warehousing, data lakes, and knowledge base consolidation. Surveys on Data integration: Dong, Srivastava: Big data integration, 2013. Doan, Halevy, Ives: Principles of Data Integration, 2012.

(Image credit: Papersgraph)

Benchmarks

These leaderboards are used to track progress in data-integration-6

Trend

Dataset

Best Model

Actions

No benchmarks available.

Libraries

Use these libraries to find data-integration-6 models and implementations

Datasets

Subtasks

Entity Alignment Entity Resolution Table annotation

Most implemented papers

MIMIC-III, a freely accessible critical care database

Alistair E. W. Johnson, T. Pollard, R. Mark, Lu Shen, Li-wei H. Lehman, M. Feng, M. Ghassemi, Benjamin Moody, Peter Szolovits, L. Celi•Sat Apr 30 2016

MIMIC-III (‘Medical Information Mart for Intensive Care’) is a large, single-center database comprising information relating to patients admitted to critical care units at a large tertiary care hospital. Data includes vital signs, medications, laboratory measurements, observations and notes charted by care providers, fluid balance, procedure codes, diagnostic codes, imaging reports, hospital length of stay, survival data, and more. The database supports applications including academic and industrial research, quality improvement initiatives, and higher education coursework. Design Type(s) data integration objective Measurement Type(s) Demographics • clinical measurement • intervention • Billing • Medical History Dictionary • Pharmacotherapy • clinical laboratory test • medical data Technology Type(s) Electronic Medical Record • Medical Record • Electronic Billing System • Medical Coding Process Document • Free Text Format Factor Type(s) Sample Characteristic(s) Homo sapiens Design Type(s) data integration objective Measurement Type(s) Demographics • clinical measurement • intervention • Billing • Medical History Dictionary • Pharmacotherapy • clinical laboratory test • medical data Technology Type(s) Electronic Medical Record • Medical Record • Electronic Billing System • Medical Coding Process Document • Free Text Format Factor Type(s) Sample Characteristic(s) Homo sapiens Machine-accessible metadata file describing the reported data (ISA-Tab format)

Content

Data Integration | State-of-the-Art

Data Integration

Benchmarks

Libraries

Datasets

Subtasks

Most implemented papers

MIMIC-III, a freely accessible critical care database

Content

Bayesian Hybrid Matrix Factorisation for Data Integration

COMO: a pipeline for multi-omics data integration in metabolic modeling and drug discovery

Heter-LP: A heterogeneous label propagation algorithm and its application in drug repositioning

Neuro-symbolic representation learning on biological knowledge graphs

A Unified Joint Matrix Factorization Framework for Data Integration

Evaluating Approaches for Supervised Semantic Labeling

Joint Estimation and Inference for Data Integration Problems based on Multiple Multi-layered Gaussian Graphical Models