Início

Questões de Concursos Ciência de Dados

Resolva questões de Ciência de Dados comentadas com gabarito, online ou em PDF, revisando rapidamente e fixando o conteúdo de forma prática.


21Q1050611 | Programação, Linguagens de Programação, Ciência de Dados, TCE PA, FGV, 2024

As arquiteturas de modelos de linguagem de larga escala (Large Language Models - LLM) surgiram recentemente, revolucionando a área de inteligência artificial nas áreas de processamento e geração de texto.
A arquitetura desses modelos baseia-se, majoritariamente, nas redes neurais do tipo transformers. Relacione as arquiteturas a seguir com suas características principais:
1. BERT 2. GPT 3. T5
( ) Utiliza decoders das redes transformer para prever novos tokens a partir de uma sequência, tornando-se ideal para a geração de textos. ( ) Utiliza encoders das redes transformer para "entender" o contexto de frases, tornando-se ideal para classificação de textos. ( ) Utiliza encoders e decoders das redes transformer, sendo adaptável a situações em que seja necessário gerar novos textos ou processar textos para "entender" o contexto das frases. ( ) Em comparação com as outras arquiteturas, tem menor necessidade de fine-tuning para melhora de performance.
A relação correta, na ordem apresentada, é
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

22Q970255 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022

Com respeito amachine learningaplicado, julgue o próximo item.

Mask RCNN (region-based convolutional neural network) é um método para segmentação de objetos e instâncias que se baseia em detecção, enquanto o método SSAP (single-shot instance segmentation) se baseia em pixels.

  1. ✂️
  2. ✂️

23Q970269 | Sistemas Operacionais, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022

Um aplicativo para edição de textos foi disponibilizado para seus usuários sob a forma de computação em nuvem. Esses usuários podem se conectar virtualmente, colaborando mutuamente para a elaboração de documentos. Tais documentos, bem como os respectivos históricos de versões anteriores, são armazenados na nuvem.

Com referência a essa situação hipotética, julgue o próximo item.

A situação descreve um modelo de nuvem denominado PaaS (platform as a service).

  1. ✂️
  2. ✂️

24Q1050610 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024

As redes neurais artificiais (Artificial Neural Networks - ANN) constituem um grupo de algoritmos inspirados nas funções dos neurônios no cérebro humano. Diversas arquiteturas de redes neurais são utilizadas para diferentes problemas, conforme suas funcionalidades.
Existe uma arquitetura de rede neural específica, especialmente apropriada ao reconhecimento de padrões de imagens e vídeos, por possuir as seguintes propriedades:
• As informações fluem apenas em uma direção. • As informações são propagadas em diferentes camadas neurais que filtram características (isto é, as features). • As informações são propagadas em diferentes camadas que reduzem sua dimensionalidade.
Das opções a seguir, as redes que mais aderem às propriedades listadas acima são as redes
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

25Q970252 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022

Julgue o próximo item, relativos a redes neurais artificiais (RNA).

Rede neural recorrente é uma arquitetura similar à feedforward; a diferença é que a cada nova camada oculta (hidden layer) é acrescentada outra camada recorrente à arquitetura conectada à camada anterior, duplicando assim a quantidade de camadas.

  1. ✂️
  2. ✂️

26Q1050613 | Programação, Linguagens de Programação, Ciência de Dados, TCE PA, FGV, 2024

Com relação ao framework pytest, da linguagem de programação Python, avalie as afirmativas a seguir:
I. O comando pytest executa os arquivos no formato test_*.py ou *_test.py no diretório corrente e nos subdiretórios. II. O comando abaixo mostra os 5 testes com maior tempo de duração. >>> pytest -vv --durations=5 III. É possível invocar o framework pytest usando o próprio interpretador do Python por meio do comando abaixo: >>> python -m pytest
Está correto o que se afirma em
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

27Q970250 | Engenharia de Software, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022

Julgue o próximo item, relativos a redes neurais artificiais (RNA).

As funções de ativação são elementos importantes nas redes neurais artificiais; essas funções introduzem componente não linear nas redes neurais, fazendo que elas possam aprender mais do que relações lineares entre as variáveis dependentes e independentes, tornando-as capazes de modelar também relações não lineares.

  1. ✂️
  2. ✂️

28Q1060313 | Legislação Federal, Intrução Normativa Sgd Me N 01 de 2019, Ciência de Dados, TCE PA, FGV, 2024

Considerando a legislação aplicável a contratos administrativos de bens e serviços de Tecnologia da Informação e Comunicação (TIC), analise as afirmativas a seguir.

I. A fase de Gestão do Contrato se iniciará com a assinatura do contrato e com a nomeação do Gestor e da Equipe de Fiscalização do Contrato, composta por Fiscal Técnico, Fiscal Requisitante, Fiscal Administrativo e Fiscal Setorial, quando necessário. II. Em contratações de serviços de TIC, o encaminhamento formal de demandas, a cargo do Gestor do Contrato, deverá ocorrer por meio de Ordens de Serviço. III. No início do contrato administrativo, para soluções compostas exclusivamente de serviços de TIC, é facultado à contratada participar da reunião inicial convocada pelo Gestor do Contrato, apresentar seu preposto e entregar os Termos de Compromisso e de Ciência.

Está correto o que se afirma em
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

29Q1060315 | Matemática, Probabilidade, Ciência de Dados, TCE PA, FGV, 2024

Considere a existência de duas caixas idênticas A e B. Na caixa A são colocadas duas bolinhas de cor verde e duas bolinhas cor-de-rosa. Na caixa B são colocadas quatro bolinhas de cor verde.
Em seguida, executam-se sequencialmente os passos a seguir:
1. Escolhe-se, aleatoriamente, uma das caixas, sem, no entanto, identificá-la. 2. Retira-se uma bolinha da caixa escolhida, que revela possuir a cor verde. 3. Retira-se uma segunda bolinha da caixa escolhida, que também acaba por possuir a cor verde.
A sequência que indica a evolução das probabilidades de que a caixa inicialmente escolhida seja a caixa A ou a caixa B, respectivamente, imediatamente após os passos 1, 2, e 3, é dada por:
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

30Q1060316 | Estatística, Inferência Estatística, Ciência de Dados, TCE PA, FGV, 2024

Testes de hipóteses são ferramentas estatísticas que viabilizam a tomada de decisões com base em dados, mesmo quando há incerteza.
A respeito dessas ferramentas, relacione cada definição com as características a que elas mais se adequam:
1. Teste-z 2. Teste-t 3. ANOVA 4. Teste chi-quadrado (χ2)
( ) Usado(a) para comparar as médias de duas amostras independentes, com amostragens suficientemente grandes e desvios-padrão conhecidos. ( ) Usado(a) para comparar as médias de duas ou mais amostras independentes, normalmente distribuídas. ( ) Usado(a) para comparar as médias de duas amostras independentes, com pequeno número de amostras ou com desvio-padrão desconhecido. ( ) Usado(a) para verificar a normalidade de uma amostra.
A relação correta, na ordem apresentada, é
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

31Q1060317 | Estatística, Estatística Descritiva Análise Exploratória de Dados, Ciência de Dados, TCE PA, FGV, 2024

Os candidatos de um concurso público realizaram um teste de redação que vale até 1000 pontos. 5000 candidatos realizaram o teste, o que gerou uma distribuição das notas cuja média foi de 600 pontos e cujo desvio padrão foi de 90 pontos. Dessa distribuição são retiradas 40 novas amostras, com 100 notas em cada amostra, sem reposição.
Dados: √4999 = 70,7; 100/101 = 0,99
O desvio-padrão da distribuição das 40 médias obtidas a partir das novas amostras (de 100 notas) retiradas é igual a
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

32Q1060318 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024

Alguns algoritmos de aprendizado de máquina foram desenvolvidos para trabalhar com atributos discretos. Porém, dados coletados no mundo real muitas vezes são contínuos.
Nesses casos, podemos usar métodos de discretização no tratamento dos dados. Um desses métodos de discretização consiste em estabelecer os limites das partições de forma que cada partição tenha aproximadamente o mesmo número de elementos.
O método acima descrito é o
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

33Q1060324 | Governança de TI, Conceitos Básicos em Governança de Ti, Ciência de Dados, TCE PA, FGV, 2024

O crescimento na quantidade e complexidade dos dados disponíveis para as empresas torna imprescindível que a Governança de Dados seja estruturada com documentos que circulem em vários níveis da empresa de acordo com as suas respectivas finalidades, contribuindo para colimar os esforços de todos os membros para obter os resultados esperados.
Com relação aos documentos da Governança de Dados, avalie as afirmativas a seguir.
I. As políticas de dados são regras pormenorizadas do que pode ser feito e o que não pode ser feito, devendo ser conhecidas por todos os profissionais da empresa. II. As normas são documentos que indicam as práticas recomendadas, mas não obrigatórias, que devem ser adotadas pelas pessoas que trabalham com os dados. III. Os procedimentos têm por finalidade orientar as pessoas na execução de tarefas específicas visando atingir determinado objetivo, ou seja, documentos que indicam o “como fazer” determinada tarefa.
Está correto o que se afirma em
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

34Q1050607 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024

Modelos de aprendizagem de máquina são, em geral, avaliados com métricas que indicam os quão poderosos e relevantes eles são. Entre exemplos de métricas de avaliação utilizadas para modelos de classificação binária, podemos citar:

• Taxa de precisão (razão entre verdadeiros positivos e o total dos verdadeiros positivos e falsos positivos); • Taxa de sensibilidade (razão entre verdadeiros positivos e o total dos verdadeiros positivos e falsos negativos, também conhecida por recall); e • Escore F1 (F1-score, também chamado de F-measure), que relaciona as taxas de precisão e de sensibilidade. Suponha a existência de um modelo de classificação binária cuja taxa de precisão é de 90,00% e cuja taxa de sensibilidade é de 75,00%. Utilize aproximação de duas casas decimais.
O escore F1 referente a esse modelo é
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

35Q970247 | Banco de Dados, Ciência de Dados, Petrobras, CESPE CEBRASPE, 2022

Os modelos ditos fracos, também chamados modelos de base, muitas vezes são combinados com o objetivo de se construir um modelo mais forte, no qual a variância e o viés atinjam equilíbrio satisfatório. Esse procedimento, denominado ensembles, é muito utilizado em ciência de dados e aprendizado de máquinas. Quanto às formas de ensembles, julgue o próximo item.


O ensemble denominado bagging tem como foco principal a redução do viés e não da variância, treinando-se os modelos em sequência, tal que os erros dos primeiros modelos treinados são utilizados para o ajuste nos pesos matemáticos dos próximos modelos.
  1. ✂️
  2. ✂️

36Q1050612 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024

Alguns dos primeiros modelos de linguagem de larga escala desenvolvidos tendiam a gerar resultados incorretos com excesso de confiança, caracterizando o que se convencionou chamar de alucinações dos modelos. Uma estratégia de mitigação das alucinações é o uso da técnica de Geração Aumentada por Recuperação, ou Retrieval-Augmented Generation (RAG).
A respeito da RAG, avalie as afirmativas a seguir.
I. Baseia-se na combinação de sistemas de recuperação de informações e de modelos generativos capazes de produzir novos textos. II. Permite aos modelos buscarem informações relevantes em bases de dados mais confiáveis durante o processamento das consultas dos usuários (user queries), viabilizando melhor adequação a contextos e melhor qualidade das respostas. III. Não altera os parâmetros dos modelos generativos, e, portanto, não influencia o treinamento das redes neurais com informações recuperadas de bases de dados externas.
Está correto o que se afirma em
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

37Q1050614 | Programação, Linguagens de Programação, Ciência de Dados, TCE PA, FGV, 2024

Considerando os parâmetros (flags) usados na linha de comando ao executar o framework pytest, aquele utilizado para iniciar o debugger interativo do Python é
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

38Q1050615 | Banco de Dados, Conceitos Básicos em Banco de Dados, Ciência de Dados, TCE PA, FGV, 2024

Com relação aos conceitos de dado, informação e conhecimento, avalie as afirmativas a seguir.
I. Os dados são itens elementares, são cadeias de símbolos e não possuem significado. II. São exemplos de conhecimento: tendência de vendas de um produto A em uma região B; relação entre o aumento ou queda do preço de uma ação X, na bolsa de valores, e a variação do câmbio. III. As informações correspondem ao dado processado, com significado e um contexto indefinido.
Está correto o que se afirma em
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

39Q1060323 | Banco de Dados, Segurança, Ciência de Dados, TCE PA, FGV, 2024

Com o aumento do volume e da complexidade dos dados gerados em sistemas de informação atuais, cresce a necessidade de eficiência no armazenamento, segurança, recuperação de dados e disponibilidade.
Nesse contexto, o algoritmo HNSW (Hierarchical Navigable Small World) busca, ao ser aplicado em bases de dados de vetores,
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️

40Q1050608 | Engenharia de Software, Inteligencia Artificial, Ciência de Dados, TCE PA, FGV, 2024

Alguns algoritmos de aprendizado de máquina servem para agrupar instâncias de dados em clusters, podendo ser utilizados para tarefas como segmentação de imagens, ou segmentação social (por exemplo, para agrupamento de clientes em uma mesma categoria.
Dois dos mais populares algoritmos são o K-means e o DBSCAN. A respeito desses algoritmos, relacione-os com suas principais características:
1. K-means 2. DBSCAN
( ) Precisa da definição de um número inicial de agrupamentos. ( ) Mais robusto à ocorrência de outliers, por sua provável localização em regiões de baixa densidade de dados. ( ) Precisa da definição do número mínimo de vizinhos e do raio da vizinhança para determinar limites dos agrupamentos. ( ) Determina centróides dos agrupamentos e agrupa as instâncias de dados em função de uma métrica de distância entre as instâncias e os centróides.
Assinale a opção que indica a relação correta, na sequência apresentada.
  1. ✂️
  2. ✂️
  3. ✂️
  4. ✂️
  5. ✂️
Utilizamos cookies e tecnologias semelhantes para aprimorar sua experiência de navegação. Política de Privacidade.