Questões de Concursos do órgão TCE PA para Ciência de Dados com Gabarito (Comentado)

ID: 1050608•
Engenharia de Software •
Inteligencia Artificial•
FGV•
TCE PA•
Ciência de Dados•
2024

Alguns algoritmos de aprendizado de máquina servem para agrupar instâncias de dados em clusters, podendo ser utilizados para tarefas como segmentação de imagens, ou segmentação social (por exemplo, para agrupamento de clientes em uma mesma categoria.
Dois dos mais populares algoritmos são o K-means e o DBSCAN. A respeito desses algoritmos, relacione-os com suas principais características:
1. K-means 2. DBSCAN
( ) Precisa da definição de um número inicial de agrupamentos. ( ) Mais robusto à ocorrência de outliers, por sua provável localização em regiões de baixa densidade de dados. ( ) Precisa da definição do número mínimo de vizinhos e do raio da vizinhança para determinar limites dos agrupamentos. ( ) Determina centróides dos agrupamentos e agrupa as instâncias de dados em função de uma métrica de distância entre as instâncias e os centróides.
Assinale a opção que indica a relação correta, na sequência apresentada.

ID: 1060319•
Engenharia de Software •
Inteligencia Artificial•
FGV•
TCE PA•
Ciência de Dados•
2024

O tratamento dos dados influencia diretamente no desempenho de muitos algoritmos de aprendizado de máquina.
A respeito de métodos de normalização e padronização numéricos é correto afirmar que

ID: 1050614•
Programação •
Linguagens de programação•
FGV•
TCE PA•
Ciência de Dados•
2024

Considerando os parâmetros (flags) usados na linha de comando ao executar o framework pytest, aquele utilizado para iniciar o debugger interativo do Python é

ID: 1060314•
Estatística•
Calculo de probabilidades•
FGV•
TCE PA•
Ciência de Dados•
2024

Num pote foram colocadas 8 bolas, sendo 2 amarelas, 2 azuis, 2 vermelhas e 2 brancas. Ao se retirar do pote uma amostra aleatória simples de 4 bolas, a probabilidade de que ela contenha apenas uma bola de cada cor é

ID: 1060320•
Engenharia de Software •
Inteligencia Artificial•
FGV•
TCE PA•
Ciência de Dados•
2024

Ao se utilizar bancos de dados reais no treinamento de métodos de aprendizado de máquina é normal se deparar com entradas que possuem um ou mais parâmetros (campos) ausentes.
Com relação às estratégias para lidar com dados ausentes, analise as afirmativas a seguir.
I. Só é possível realizar imputation quando o atributo (feature) ausente é numérico. II. Ao utilizar o k-nearest neighbors (KNN) para fazer o imputation é uma boa estratégia primeiro fazer a normalização ou padronização dos dados. III. Ao se trabalhar com bancos de dados com poucas amostras (itens), uma estratégia usualmente utilizada para lidar com as amostras) que possuem valores ausentes é a remoção.
Está correto o que se afirma em

ID: 1050609•
Engenharia de Software •
Inteligencia Artificial•
FGV•
TCE PA•
Ciência de Dados•
2024

A análise de componentes principais (Principal Component Analysis - PCA) é uma técnica de redução de dimensionalidade de dados utilizada em diversas aplicações, tais como em compressão de imagens e em processamento de linguagem natural.
Em relação à análise de componentes principais, avalie se as afirmativas a seguir são verdadeiras (V) ou falsas.
( ) Permite a identificação de correlações e de estruturas de menor dimensionalidade na distribuição espacial dos dados, caracterizadas pelas direções onde há maior variância. ( ) Envolve o cálculo de autovalores e autovetores de matrizes de covariâncias, determinando-se as componentes principais das distribuições de dados. ( ) É adequada para identificar correlações não-lineares entre os dados de um conjunto de alta dimensionalidade, projetando estruturas em espaços vetoriais de menores dimensões.
As afirmativas são, respectivamente,

ID: 1050608•Engenharia de Software •Inteligencia Artificial•FGV•TCE PA•Ciência de Dados•2024

ID: 1060319•Engenharia de Software •Inteligencia Artificial•FGV•TCE PA•Ciência de Dados•2024

ID: 1050614•Programação •Linguagens de programação•FGV•TCE PA•Ciência de Dados•2024

ID: 1060314•Estatística•Calculo de probabilidades•FGV•TCE PA•Ciência de Dados•2024

ID: 1060320•Engenharia de Software •Inteligencia Artificial•FGV•TCE PA•Ciência de Dados•2024