O conceito de Big Data engloba não apenas o volume de dados,
mas também a variedade e a velocidade com que são produzidos
os chamados 3Vs, os principais desafios ou dimensões do Big
Data.
Posteriormente, de acordo com o DAMA-DBOK, aos 3Vs iniciais
foram adicionados outros 3Vs aos principais desafios ou
dimensões do Big Data. São eles:
O Big Data é implementado por equipes multidisciplinares,
especializadas em suas respectivas áreas. O nome do perfil
profissional que trabalha na definição de padrões, frameworks e
protocolos e indica as disposições necessárias para os projetos,
desde CPU, storages, licenças de software, se chama
Uma loja online que está crescendo e coletando muitas
informações sobre seus clientes: o que eles clicam, o que
compram, as avaliações que deixam nos produtos e até as
mensagens que enviam. Para dar dicas de produtos cada vez
melhores e deixar a experiência de cada cliente mais
personalizada, a loja decidiu criar um "grande depósito de dados"
(Data Lake) para guardar tudo isso. E a equipe de especialistas em
dados planeja usar Inteligência Artificial e Machine Learning para
desvendar os segredos contidos nesse depósito.
Nesse caso, a grande vantagem de usar IA e ML junto com um Data
Lake é
Em uma cidade inteligente, diversos dispositivos conectados,
como sensores de trânsito, câmeras de segurança e medidores de
energia, trocam informações entre si para otimizar o uso de
recursos e melhorar a qualidade de vida dos cidadãos.
Esse conceito é conhecido como
Inicialmente, o conceito de Big Data era amplamente descrito
pelos chamados ‘3 Vs’. Com o avanço da área, novos ‘Vs’ foram
incorporados para ampliar essa definição. Um desses novos ‘Vs’ é
a veracidade.
Assinale a opção que melhor define o conceito de veracidade.
No contexto de análise de dados numéricos em aplicações de Big
Data, há casos em que é necessário lidar com a
identificação/isolamento de outliers. Uma das técnicas utilizadas
nesses casos é baseada na fórmula a seguir.
Z = (x – µ) / σ
Na fórmula, “Z” é um fator (ou escore) que permite estabelecer se
o valor numérico “x” deve ser considerado um outlier ou não.
Os símbolos “µ” e “σ” empregados na fórmula significam
respectivamente:
Maria, analista de mercado da CVM, precisa analisar milhares de
negociações financeiras para obter insights e tomar decisões ao
longo do dia. Maria apresentou a demanda para Tiago, o
arquiteto de big data da CVM.
Para processar as negociações financeiras como uma sequência
de eventos no tempo, agrupando e filtrando os dados à medida
que são capturados, o componente da arquitetura de big data
que Tiago deve desenvolver é o:
A eficiência no armazenamento de dados é crucial para muitas
organizações. Tecnologias como Amazon S3, CEPH e HDFS
apresentam soluções adequadas a diferentes necessidades.
Sobre esses modelos de armazenamento, avalie as afirmativas a
seguir.
I. O Amazon Simple Storage Service utiliza um sistema de
arquivos distribuídos, o que proporciona uma escalabilidade
praticamente ilimitada.
II. O modelo CEPH é indicado para organizações que lidam com
dados altamente sensíveis, como informações financeiras,
jurídicas ou dados governamentais.
III. Dividir arquivos grandes em blocos de tamanho fixo aumenta
a eficiência do HDFS no processamento de grandes volumes
de dados, ou Big Data.
Está correto o que se afirma em
Um Tribunal está implementando uma solução para gerenciar seu
vasto acervo digital, que inclui milhões de documentos
digitalizados, gravações de áudio de sessões, vídeos de audiências
e dados estruturados extraídos do sistema processual eletrônico.
Para viabilizar análises futuras complexas (como mineração de
dados, inteligência artificial e cruzamento de informações) e
consultas avançadas, optou por armazenar inicialmente todos
esses dados em um data lake.
A principal vantagem da escolha inicial pelo data lake reside no
fato de que ele permite: