Os sistemas de Data Warehouse são tradicionalmente
suportados por modelos multidimensionais predefinidos,
tendo o intuito de prover suporte a aplicações de Business
Intelligence. A resposta às novas necessidades é a
utilização de memória extensiva, distribuição de dados e
paralelização de processamento, que, de uma forma ou de
outra, estão incluídos no Apache Hadoop, Apache Spark,
bases de dados NoSQL e tecnologias complementares a
estas.
Uma característica importante do Apache Spark é
a) realizar processamento em lote, sendo adequado para
cargas de trabalho como análises retrospectivas.
b) ser baseado no mapeamento de memória, dividindo
dados em blocos e distribuindo entre os nós de um
cluster.
c) utilizar in-memory cache (cache em memória) e recursos
de otimização para agilizar consultas analíticas em
conjuntos de dados de qualquer tamanho.
d) gerenciar e monitorar clusters de nós, otimizando o
processamento por meio de paralelismo.