Atualmente, diversos dados são coletados pelos sistemas digitais de empresas na internet para constituir Big Data com conteúdo sobre os resultados alcançados por seus produtos e serviços, prestígio da imagem da organização e seus representantes. Porém, parte desses dados pode ser falsa ou manipulada por internautas. O tratamento dos dados, a fim de qualificá-los antes de disponibilizá-los para a tomada de decisão na empresa, segundo o conceito das cinco dimensões “V” de avaliação de um Big Data, se refere

Um conjunto de programas de computador está sendo executado em um conjunto de servidores conectados em rede local, para alimentar um data warehouse a partir dos bancos de dados transacionais de uma empresa, sendo que: um primeiro programa realiza uma cópia de dados transacionais selecionados em estruturas de dados que formam um staging area; um segundo programa faz a leitura dos dados na staging area e alimenta estruturas de bancos de dados em um Operational Data Storage (ODS), que consolida dados operacionais de diversas aplicações e complementa conteúdo. Por fim, outro programa de aplicação faz a leitura do ODS e carrega estruturas de dados em uma estrutura não relacional de tabelas em um data warehouse.

Esse processo para integrar os bancos de dados que são heterogêneos é denominado: