Início Questões de Concursos Ciência de Dados Resolva questões de Ciência de Dados comentadas com gabarito, online ou em PDF, revisando rapidamente e fixando o conteúdo de forma prática. Ciência de Dados Ordenar por: Mais populares Mais recentes Mais comentadas Filtrar questões: Exibir todas as questões Exibir questões resolvidas Excluir questões resolvidas Exibir questões que errei Filtrar 41Q1050609 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024A análise de componentes principais (Principal Component Analysis - PCA) é uma técnica de redução de dimensionalidade de dados utilizada em diversas aplicações, tais como em compressão de imagens e em processamento de linguagem natural. Em relação à análise de componentes principais, avalie se as afirmativas a seguir são verdadeiras (V) ou falsas. ( ) Permite a identificação de correlações e de estruturas de menor dimensionalidade na distribuição espacial dos dados, caracterizadas pelas direções onde há maior variância. ( ) Envolve o cálculo de autovalores e autovetores de matrizes de covariâncias, determinando-se as componentes principais das distribuições de dados. ( ) É adequada para identificar correlações não-lineares entre os dados de um conjunto de alta dimensionalidade, projetando estruturas em espaços vetoriais de menores dimensões. As afirmativas são, respectivamente, ✂️ a) V – F – V. ✂️ b) F – V – V. ✂️ c) F – F – V. ✂️ d) V – V – F. ✂️ e) V – F – F. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 42Q1060314 | Estatística, Cálculo de Probabilidades, Ciência de Dados, TCE PA, FGV, 2024Num pote foram colocadas 8 bolas, sendo 2 amarelas, 2 azuis, 2 vermelhas e 2 brancas. Ao se retirar do pote uma amostra aleatória simples de 4 bolas, a probabilidade de que ela contenha apenas uma bola de cada cor é ✂️ a) 4/9. ✂️ b) 9/35. ✂️ c) 9/70. ✂️ d) 4/7. ✂️ e) 8/35. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 43Q970260 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Com respeito a métodos para imputação de dados, julgue o seguinte item.Um dos passos para tratar com dados faltantes é avaliar o tipo de dado perdido; assim, por exemplo, o método MICE (multivariate imputation by chained equations) não seria aplicável para dados perdidos do tipo MAR (missing at random). ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 44Q1060319 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024O tratamento dos dados influencia diretamente no desempenho de muitos algoritmos de aprendizado de máquina. A respeito de métodos de normalização e padronização numéricos é correto afirmar que ✂️ a) são utilizados, principalmente, na detecção e remoção de outliers. ✂️ b) na normalização com min-max scaling é definida a média desejada para o atributo. ✂️ c) o uso da técnica min-max scaling é recomendada quando os dados apresentam outliers. ✂️ d) na padronização com z-score são determinadas a média e a variância desejadas para o atributo. ✂️ e) a padronização com z-score é empregada, usualmente, para garantir que o atributo terá apenas valores positivos. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 45Q1060320 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024Ao se utilizar bancos de dados reais no treinamento de métodos de aprendizado de máquina é normal se deparar com entradas que possuem um ou mais parâmetros (campos) ausentes. Com relação às estratégias para lidar com dados ausentes, analise as afirmativas a seguir. I. Só é possível realizar imputation quando o atributo (feature) ausente é numérico. II. Ao utilizar o k-nearest neighbors (KNN) para fazer o imputation é uma boa estratégia primeiro fazer a normalização ou padronização dos dados. III. Ao se trabalhar com bancos de dados com poucas amostras (itens), uma estratégia usualmente utilizada para lidar com as amostras) que possuem valores ausentes é a remoção. Está correto o que se afirma em ✂️ a) I, apenas. ✂️ b) II, apenas. ✂️ c) III, apenas. ✂️ d) I e II apenas. ✂️ e) I, II e III. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 46Q970256 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Com respeito amachine learningaplicado, julgue o próximo item.Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o significado de uma frase. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 47Q970253 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).Em RNA, o uso de early stopping, ainda que não evite o overfitting, permite calcular com mais precisão a classificação nos dados de validação e, assim, melhorar a acurácia do treinamento. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 48Q1076957 | Informática, Extensão de Arquivo, Ciência de Dados, ANM, CESPE CEBRASPE, 2025Julgue o item a seguir, relativo às tecnologias CSV e JSON, à Linguagem SQL e ao modelo CRISP-DM. Arquivos CSV devem obrigatoriamente incluir um cabeçalho na primeira linha para identificar os campos. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 49Q970243 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Em um processo em que se utiliza a ciência de dados, o número de variáveis necessárias para a realização da investigação de um fenômeno é direta e simplesmente igual ao número de variáveis utilizadas para mensurar as respectivas características desejadas; entretanto, é diferente o procedimento para determinar o número de variáveis explicativas, cujos dados estejam em escalas qualitativas.Considerando esse aspecto dos modelos de regressão, julgue o item a seguir.Para evitar um erro de ponderação arbitrária, deve-se recorrer ao artifício de uso de variáveis dummy, o que permitirá a estratificação da amostra da maneira que for definido um determinado critério, evento ou atributo, para então serem inseridas no modelo em análise; isso permitirá o estudo da relação entre o comportamento de determinada variável explicativa qualitativa e o fenômeno em questão, representado pela variável dependente. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 50Q970244 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Uma árvore de decisão representa um determinado número de caminhos possíveis de decisão e os resultados de cada um deles, apresentando muitos pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm processo de previsão completamente transparente e lidam facilmente com diversos atributos numéricos, assim como atributos categóricos, podendo até mesmo classificar dados sem atributos definidos. De acordo com os aspectos construtivos de uma árvore de decisão, julgue o item a seguir.Se o processo adotado para a construção de árvores de decisão for determinístico, uma forma de obtenção de árvores aleatórias, que compõem as florestas aleatórias, pode ser realizada por meio do bootstrap dos dados, em que cada árvore é treinada com base no resultado de bootstrap_sample (inputs). ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 51Q970246 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022As máquinas de vetores de suporte (SVMs) são originalmente utilizadas para a classificação de dados em duas classes, ou seja, na geração de dicotomias. Nas SVMs com margens rígidas, conjuntos de treinamento linearmente separáveis podem ser classificados. Acerca das características das SVMs com margens rígidas, julgue o item a seguir.Um conjunto linearmente separável é composto por exemplos que podem ser separados por pelo menos um hiperplano. As SVMs lineares buscam o hiperplano ótimo segundo a teoria do aprendizado estatístico, definido como aquele em que a margem de separação entre as classes presentes nos dados é minimizada. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 52Q970254 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).Uma rede neural convolucional é composta por camadas convolucionais, unidades de processamento não linear e camadas de subamostragem (pooling); ela possui como característica a habilidade em explorar correlações temporais e espaciais nos dados. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 53Q970259 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Com respeito a métodos para imputação de dados, julgue o seguinte item.O método de imputação K-NN (k-nearest neighbours) leva em consideração os padrões de similaridade presentes no conjunto de dados para predizer os valores faltantes. No entanto, a escolha da função de distância para a aplicação desse método, como, por exemplo, HEOM (heterogeneous euclidean-overlap metric) ou HVDM (heterogeneous value difference metric), pode influenciar significativamente nos resultados da imputação. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 54Q970249 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).Em RNA formada unicamente de perceptron, uma pequena alteração nos pesos de um único perceptron na rede pode ocasionar grandes mudanças na saída desse perceptron; mesmo com a inserção das funções de ativação, não é possível controlar o nível da mudança, por isso, essas redes são voltadas para a resolução de problemas específicos, tais como regressão e previsão de séries temporais. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 55Q970251 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).O algoritmo de backpropagation consiste das fases de propagação e de retro propagação: na primeira, as entradas são passadas através da rede e as previsões de saída são obtidas; na segunda, se calcula o termo de correção dos pesos e, por conseguinte, a atualização dos pesos. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro 🖨️ Baixar PDF← Anterior
41Q1050609 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024A análise de componentes principais (Principal Component Analysis - PCA) é uma técnica de redução de dimensionalidade de dados utilizada em diversas aplicações, tais como em compressão de imagens e em processamento de linguagem natural. Em relação à análise de componentes principais, avalie se as afirmativas a seguir são verdadeiras (V) ou falsas. ( ) Permite a identificação de correlações e de estruturas de menor dimensionalidade na distribuição espacial dos dados, caracterizadas pelas direções onde há maior variância. ( ) Envolve o cálculo de autovalores e autovetores de matrizes de covariâncias, determinando-se as componentes principais das distribuições de dados. ( ) É adequada para identificar correlações não-lineares entre os dados de um conjunto de alta dimensionalidade, projetando estruturas em espaços vetoriais de menores dimensões. As afirmativas são, respectivamente, ✂️ a) V – F – V. ✂️ b) F – V – V. ✂️ c) F – F – V. ✂️ d) V – V – F. ✂️ e) V – F – F. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
42Q1060314 | Estatística, Cálculo de Probabilidades, Ciência de Dados, TCE PA, FGV, 2024Num pote foram colocadas 8 bolas, sendo 2 amarelas, 2 azuis, 2 vermelhas e 2 brancas. Ao se retirar do pote uma amostra aleatória simples de 4 bolas, a probabilidade de que ela contenha apenas uma bola de cada cor é ✂️ a) 4/9. ✂️ b) 9/35. ✂️ c) 9/70. ✂️ d) 4/7. ✂️ e) 8/35. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
43Q970260 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Com respeito a métodos para imputação de dados, julgue o seguinte item.Um dos passos para tratar com dados faltantes é avaliar o tipo de dado perdido; assim, por exemplo, o método MICE (multivariate imputation by chained equations) não seria aplicável para dados perdidos do tipo MAR (missing at random). ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
44Q1060319 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024O tratamento dos dados influencia diretamente no desempenho de muitos algoritmos de aprendizado de máquina. A respeito de métodos de normalização e padronização numéricos é correto afirmar que ✂️ a) são utilizados, principalmente, na detecção e remoção de outliers. ✂️ b) na normalização com min-max scaling é definida a média desejada para o atributo. ✂️ c) o uso da técnica min-max scaling é recomendada quando os dados apresentam outliers. ✂️ d) na padronização com z-score são determinadas a média e a variância desejadas para o atributo. ✂️ e) a padronização com z-score é empregada, usualmente, para garantir que o atributo terá apenas valores positivos. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
45Q1060320 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024Ao se utilizar bancos de dados reais no treinamento de métodos de aprendizado de máquina é normal se deparar com entradas que possuem um ou mais parâmetros (campos) ausentes. Com relação às estratégias para lidar com dados ausentes, analise as afirmativas a seguir. I. Só é possível realizar imputation quando o atributo (feature) ausente é numérico. II. Ao utilizar o k-nearest neighbors (KNN) para fazer o imputation é uma boa estratégia primeiro fazer a normalização ou padronização dos dados. III. Ao se trabalhar com bancos de dados com poucas amostras (itens), uma estratégia usualmente utilizada para lidar com as amostras) que possuem valores ausentes é a remoção. Está correto o que se afirma em ✂️ a) I, apenas. ✂️ b) II, apenas. ✂️ c) III, apenas. ✂️ d) I e II apenas. ✂️ e) I, II e III. Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
46Q970256 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Com respeito amachine learningaplicado, julgue o próximo item.Stop-words constituem um conjunto de palavras que proporcionam pouca informação para o significado de uma frase. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
47Q970253 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).Em RNA, o uso de early stopping, ainda que não evite o overfitting, permite calcular com mais precisão a classificação nos dados de validação e, assim, melhorar a acurácia do treinamento. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
48Q1076957 | Informática, Extensão de Arquivo, Ciência de Dados, ANM, CESPE CEBRASPE, 2025Julgue o item a seguir, relativo às tecnologias CSV e JSON, à Linguagem SQL e ao modelo CRISP-DM. Arquivos CSV devem obrigatoriamente incluir um cabeçalho na primeira linha para identificar os campos. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
49Q970243 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Em um processo em que se utiliza a ciência de dados, o número de variáveis necessárias para a realização da investigação de um fenômeno é direta e simplesmente igual ao número de variáveis utilizadas para mensurar as respectivas características desejadas; entretanto, é diferente o procedimento para determinar o número de variáveis explicativas, cujos dados estejam em escalas qualitativas.Considerando esse aspecto dos modelos de regressão, julgue o item a seguir.Para evitar um erro de ponderação arbitrária, deve-se recorrer ao artifício de uso de variáveis dummy, o que permitirá a estratificação da amostra da maneira que for definido um determinado critério, evento ou atributo, para então serem inseridas no modelo em análise; isso permitirá o estudo da relação entre o comportamento de determinada variável explicativa qualitativa e o fenômeno em questão, representado pela variável dependente. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
50Q970244 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Uma árvore de decisão representa um determinado número de caminhos possíveis de decisão e os resultados de cada um deles, apresentando muitos pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm processo de previsão completamente transparente e lidam facilmente com diversos atributos numéricos, assim como atributos categóricos, podendo até mesmo classificar dados sem atributos definidos. De acordo com os aspectos construtivos de uma árvore de decisão, julgue o item a seguir.Se o processo adotado para a construção de árvores de decisão for determinístico, uma forma de obtenção de árvores aleatórias, que compõem as florestas aleatórias, pode ser realizada por meio do bootstrap dos dados, em que cada árvore é treinada com base no resultado de bootstrap_sample (inputs). ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
51Q970246 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022As máquinas de vetores de suporte (SVMs) são originalmente utilizadas para a classificação de dados em duas classes, ou seja, na geração de dicotomias. Nas SVMs com margens rígidas, conjuntos de treinamento linearmente separáveis podem ser classificados. Acerca das características das SVMs com margens rígidas, julgue o item a seguir.Um conjunto linearmente separável é composto por exemplos que podem ser separados por pelo menos um hiperplano. As SVMs lineares buscam o hiperplano ótimo segundo a teoria do aprendizado estatístico, definido como aquele em que a margem de separação entre as classes presentes nos dados é minimizada. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
52Q970254 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).Uma rede neural convolucional é composta por camadas convolucionais, unidades de processamento não linear e camadas de subamostragem (pooling); ela possui como característica a habilidade em explorar correlações temporais e espaciais nos dados. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
53Q970259 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Com respeito a métodos para imputação de dados, julgue o seguinte item.O método de imputação K-NN (k-nearest neighbours) leva em consideração os padrões de similaridade presentes no conjunto de dados para predizer os valores faltantes. No entanto, a escolha da função de distância para a aplicação desse método, como, por exemplo, HEOM (heterogeneous euclidean-overlap metric) ou HVDM (heterogeneous value difference metric), pode influenciar significativamente nos resultados da imputação. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
54Q970249 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).Em RNA formada unicamente de perceptron, uma pequena alteração nos pesos de um único perceptron na rede pode ocasionar grandes mudanças na saída desse perceptron; mesmo com a inserção das funções de ativação, não é possível controlar o nível da mudança, por isso, essas redes são voltadas para a resolução de problemas específicos, tais como regressão e previsão de séries temporais. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro
55Q970251 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022Julgue o próximo item, relativos a redes neurais artificiais (RNA).O algoritmo de backpropagation consiste das fases de propagação e de retro propagação: na primeira, as entradas são passadas através da rede e as previsões de saída são obtidas; na segunda, se calcula o termo de correção dos pesos e, por conseguinte, a atualização dos pesos. ✂️ a) Certo ✂️ b) Errado Resolver questão 🗨️ Comentários 📊 Estatísticas 📁 Salvar 🧠 Mapa Mental 🏳️ Reportar erro