Questões de Concursos

filtre e encontre questões para seus estudos.

Os modelos de dados desempenham um papel fundamental no processo de ETL (Extração, Transformação e Carga), pois são responsáveis por estruturar e organizar as informações de maneira eficiente e consistente. Eles garantem que os dados extraídos de diferentes fontes sejam integrados corretamente, facilitando a transformação e preparação para a análise posterior.
No contexto de modelos de dados em ETL, existe o conceito de tabela de fatos sem fato (factless fact), que se caracteriza por
O Apache Spark é uma ferramenta amplamente utilizada para processamento de grandes volumes de dados.
Assinale a opção que o descreve corretamente, assim como suas capacidades e suas funcionalidades.
Considere o seguinte cenário: Uma empresa de telecomunicações está analisando os dados de uso de seus clientes, como frequência de chamadas, uso de dados móveis e envio de mensagens. Ela quer identificar grupos de clientes com comportamentos semelhantes para oferecer promoções personalizadas.
Em uma escolha por uma solução de aprendizado de máquina, o cientista de dados deve observar que, se o aprendizado for
Uma chapa de alumínio de formato circular é exposta a uma fonte de calor e sofre dilatação, de modo que seu raio cresce com velocidade constante de 0,01cm/s.
No instante em que o raio do disco atinge 2cm, a velocidade com que sua área cresce, em cm2/s, é
O Apache Hadoop é uma plataforma amplamente utilizada no processamento de grandes volumes de dados. Ele se destaca por sua arquitetura distribuída e capacidade de lidar com grandes conjuntos de dados de forma eficiente.
Com base nas capacidades e funcionalidades do Hadoop, assinale a opção que = descreve corretamente seu funcionamento e aplicação prática.
Uma comissão é composta por analistas de diferentes áreas, sendo cinco em inteligência da informação, cinco em contabilidade, cinco em gestão econômico-financeira e cinco em engenharia. Dois analistas serão sorteados nessa comissão para ocupar as posições de presidente e vice-presidente.
A probabilidade de os analistas sorteados pertencerem à mesma área é
O algoritmo de redução de dimensionalidade conhecido como Análise de Componentes Principais (PCA – Principal Component Analysis) possui características importantes.
Dada a escolha de um número k de componentes principais e um conjunto de dados X com cinco variáveis A, B, C, D e E, o PCA
Support Vector Machines (SVMs) é um método de aprendizado de máquina que pode ser aplicado em áreas como reconhecimento de padrões, bioinformática e detecção de fraudes, devido à sua capacidade de lidar com dados complexos.
Nesse contexto, identificamos que o método SVM
Um dos conceitos associados a coleções de objetos de dados e/ou arquivos de sistemas de bancos de dados NoSQL é o de sharding.
Nesse contexto, uma das características de sharding refere-se
No âmbito de normalização de bancos de dados relacionais, há o conceito de dependência com a seguinte especificação: “para o esquema de uma relação R, uma restrição que demanda que cada estado r de R apresente uma decomposição de junção não aditiva e não trivial para cada decomposição Ri de R, em que o valor de i varie entre 1 e n, sendo n o número de decomposições de R”.
Esse conceito de dependência, considerando um valor de n maior que dois (n>2), integra a definição da
A validação cruzada é uma importante técnica em aprendizado de máquina, usada para obter uma estimativa mais robusta do erro de generalização. Dessa forma, ela contribui para a construção de modelos mais confiáveis, permitindo uma avaliação mais precisa de sua capacidade preditiva em diferentes cenários.
Uma das características da validação cruzada com k conjuntos é que esse método
Algoritmos de agrupamento podem ser classificados em diferentes categorias. Um algoritmo de agrupamento amplamente utilizado em aprendizado de máquina e mineração de dados é conhecido como K-Means.
O K-Means, em sua versão original, é classificado como um tipo de algoritmo
Uma urna contém 3 bolas vermelhas e 4 bolas azuis indistinguíveis, exceto pela cor. Três bolas serão retiradas dessa urna, sucessivamente e sem reposição.
Seja X a variável aleatória que representa a quantidade de bolas azuis retiradas da urna.
O valor esperado de X é
Um conjunto de dados foi particionado em dois subconjuntos, sendo um de treinamento e outro de testagem, ambos utilizados exclusivamente para serem usados em seus objetivos originais (dados de treino para treinamento, e de teste para testagem).
Em relação ao ajuste e validação de modelos em aprendizado de máquina, um modelo sofre overfitting quando