O conceito de Big Data engloba não apenas o volume de dados, mas também a variedade e a velocidade com que são produzidos os chamados 3Vs, os principais desafios ou dimensões do Big Data.
Posteriormente, de acordo com o DAMA-DBOK, aos 3Vs iniciais foram adicionados outros 3Vs aos principais desafios ou dimensões do Big Data. São eles:
O Big Data é implementado por equipes multidisciplinares, especializadas em suas respectivas áreas. O nome do perfil profissional que trabalha na definição de padrões, frameworks e protocolos e indica as disposições necessárias para os projetos, desde CPU, storages, licenças de software, se chama
Uma loja online que está crescendo e coletando muitas informações sobre seus clientes: o que eles clicam, o que compram, as avaliações que deixam nos produtos e até as mensagens que enviam. Para dar dicas de produtos cada vez melhores e deixar a experiência de cada cliente mais personalizada, a loja decidiu criar um "grande depósito de dados" (Data Lake) para guardar tudo isso. E a equipe de especialistas em dados planeja usar Inteligência Artificial e Machine Learning para desvendar os segredos contidos nesse depósito.
Nesse caso, a grande vantagem de usar IA e ML junto com um Data Lake é
Em uma cidade inteligente, diversos dispositivos conectados, como sensores de trânsito, câmeras de segurança e medidores de energia, trocam informações entre si para otimizar o uso de recursos e melhorar a qualidade de vida dos cidadãos.
Esse conceito é conhecido como
Inicialmente, o conceito de Big Data era amplamente descrito pelos chamados ‘3 Vs’. Com o avanço da área, novos ‘Vs’ foram incorporados para ampliar essa definição. Um desses novos ‘Vs’ é a veracidade.
Assinale a opção que melhor define o conceito de veracidade.
No contexto de análise de dados numéricos em aplicações de Big Data, há casos em que é necessário lidar com a identificação/isolamento de outliers. Uma das técnicas utilizadas nesses casos é baseada na fórmula a seguir.
Z = (x – µ) / σ
Na fórmula, “Z” é um fator (ou escore) que permite estabelecer se o valor numérico “x” deve ser considerado um outlier ou não.
Os símbolos “µ” e “σ” empregados na fórmula significam respectivamente:
Maria, analista de mercado da CVM, precisa analisar milhares de negociações financeiras para obter insights e tomar decisões ao longo do dia. Maria apresentou a demanda para Tiago, o arquiteto de big data da CVM.
Para processar as negociações financeiras como uma sequência de eventos no tempo, agrupando e filtrando os dados à medida que são capturados, o componente da arquitetura de big data que Tiago deve desenvolver é o:
A eficiência no armazenamento de dados é crucial para muitas organizações. Tecnologias como Amazon S3, CEPH e HDFS apresentam soluções adequadas a diferentes necessidades.
Sobre esses modelos de armazenamento, avalie as afirmativas a seguir.
I. O Amazon Simple Storage Service utiliza um sistema de arquivos distribuídos, o que proporciona uma escalabilidade praticamente ilimitada. II. O modelo CEPH é indicado para organizações que lidam com dados altamente sensíveis, como informações financeiras, jurídicas ou dados governamentais. III. Dividir arquivos grandes em blocos de tamanho fixo aumenta a eficiência do HDFS no processamento de grandes volumes de dados, ou Big Data.
Está correto o que se afirma em
Um Tribunal está implementando uma solução para gerenciar seu vasto acervo digital, que inclui milhões de documentos digitalizados, gravações de áudio de sessões, vídeos de audiências e dados estruturados extraídos do sistema processual eletrônico. Para viabilizar análises futuras complexas (como mineração de dados, inteligência artificial e cruzamento de informações) e consultas avançadas, optou por armazenar inicialmente todos esses dados em um data lake.
A principal vantagem da escolha inicial pelo data lake reside no fato de que ele permite: