Os modelos de dados desempenham um papel fundamental no
processo de ETL (Extração, Transformação e Carga), pois são
responsáveis por estruturar e organizar as informações de maneira
eficiente e consistente. Eles garantem que os dados extraídos de
diferentes fontes sejam integrados corretamente, facilitando a
transformação e preparação para a análise posterior. No contexto de modelos de dados em ETL, existe o conceito de
tabela de fatos sem fato (factless fact), que se caracteriza por
O Apache Spark é uma ferramenta amplamente utilizada para
processamento de grandes volumes de dados.
Assinale a opção que o descreve corretamente, assim como suas
capacidades e suas funcionalidades.
Considere o seguinte cenário: Uma empresa de telecomunicações
está analisando os dados de uso de seus clientes, como frequência
de chamadas, uso de dados móveis e envio de mensagens. Ela quer
identificar grupos de clientes com comportamentos semelhantes
para oferecer promoções personalizadas.
Em uma escolha por uma solução de aprendizado de máquina, o
cientista de dados deve observar que, se o aprendizado for
Uma chapa de alumínio de formato circular é exposta a uma fonte
de calor e sofre dilatação, de modo que seu raio cresce com
velocidade constante de 0,01cm/s.
No instante em que o raio do disco atinge 2cm, a velocidade com
que sua área cresce, em cm2/s, é
O Apache Hadoop é uma plataforma amplamente utilizada no
processamento de grandes volumes de dados. Ele se destaca por
sua arquitetura distribuída e capacidade de lidar com grandes
conjuntos de dados de forma eficiente.
Com base nas capacidades e funcionalidades do Hadoop, assinale
a opção que = descreve corretamente seu funcionamento e
aplicação prática.
Uma comissão é composta por analistas de diferentes áreas, sendo
cinco em inteligência da informação, cinco em contabilidade, cinco
em gestão econômico-financeira e cinco em engenharia. Dois
analistas serão sorteados nessa comissão para ocupar as posições
de presidente e vice-presidente.
A probabilidade de os analistas sorteados pertencerem à mesma
área é
O algoritmo de redução de dimensionalidade conhecido como
Análise de Componentes Principais (PCA – Principal Component
Analysis) possui características importantes.
Dada a escolha de um número k de componentes principais e um
conjunto de dados X com cinco variáveis A, B, C, D e E, o PCA
Support Vector Machines (SVMs) é um método de aprendizado de
máquina que pode ser aplicado em áreas como reconhecimento
de padrões, bioinformática e detecção de fraudes, devido à sua
capacidade de lidar com dados complexos.
Nesse contexto, identificamos que o método SVM
Um dos conceitos associados a coleções de objetos de dados e/ou
arquivos de sistemas de bancos de dados NoSQL é o de sharding.
Nesse contexto, uma das características de sharding refere-se
No âmbito de normalização de bancos de dados relacionais, há o
conceito de dependência com a seguinte especificação: “para o
esquema de uma relação R, uma restrição que demanda que cada
estado r de R apresente uma decomposição de junção não aditiva
e não trivial para cada decomposição Ri de R, em que o valor de i
varie entre 1 e n, sendo n o número de decomposições de R”.
Esse conceito de dependência, considerando um valor de n maior
que dois (n>2), integra a definição da
A validação cruzada é uma importante técnica em aprendizado de
máquina, usada para obter uma estimativa mais robusta do erro
de generalização. Dessa forma, ela contribui para a construção de
modelos mais confiáveis, permitindo uma avaliação mais precisa
de sua capacidade preditiva em diferentes cenários.
Uma das características da validação cruzada com k conjuntos é
que esse método
Algoritmos de agrupamento podem ser classificados em diferentes
categorias. Um algoritmo de agrupamento amplamente utilizado
em aprendizado de máquina e mineração de dados é conhecido
como K-Means.
O K-Means, em sua versão original, é classificado como um tipo de
algoritmo
Uma urna contém 3 bolas vermelhas e 4 bolas azuis indistinguíveis,
exceto pela cor. Três bolas serão retiradas dessa urna,
sucessivamente e sem reposição. Seja X a variável aleatória que representa a quantidade de bolas
azuis retiradas da urna.
O valor esperado de X é
Um conjunto de dados foi particionado em dois subconjuntos,
sendo um de treinamento e outro de testagem, ambos utilizados
exclusivamente para serem usados em seus objetivos originais
(dados de treino para treinamento, e de teste para testagem).
Em relação ao ajuste e validação de modelos em aprendizado de
máquina, um modelo sofre overfitting quando