Questões de Ciência de Dados e Analytics com Gabarito (Comentado)

1

Q1044179 • Estatística • Cálculo de Probabilidades • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Um time de futebol disputa um campeonato em que joga um número igual de partidas em seu estádio e fora de seu estádio. As probabilidades de ganhar, empatar ou perder uma partida quando joga em seu estádio são, respectivamente, 1/2, 1/5 e 3/10. As probabilidades de ganhar, empatar ou perder uma partida quando joga fora de seu estádio são, respectivamente, 1/5, 1/5 e 3/5.
Um torcedor desinformado, ao chegar em sua aula sobre inferência bayesiana, ouviu de seus amigos que o referido time havia perdido a última partida que disputou. Sem obter nenhuma informação adicional, o torcedor resolveu calcular as probabilidades (a posteriori) de o time haver jogado a última partida em seu estádio ou fora de seu estádio.
As probabilidades calculadas corretamente pelo torcedor foram, respectivamente,

a) 1/5 e 4/5.
b) 2/5 e 3/5.
c) 1/7 e 6/7.
d) 3/7 e 4/7.
e) 1/3 e 2/3.

2

Q1044178 • Estatística • Estatística Descritiva Análise Exploratória de Dados • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Uma das etapas essenciais do tratamento e processamento de dados, em especial para estatística e para o aprendizado de máquina, consiste em sua organização e identificação. Uma maneira de organizar os dados de um conjunto consiste em classificá-los.
Relacione cada uma das variáveis a seguir, constantes de um conjunto de dados sobre um grupo de pessoas, com a classificação a ela mais adequada.

1. Grau de instrução (ex.: superior)
2. Número de filhos
3. Estado de Procedência (ex.: Minas Gerais)
4. Massa corporal

( ) Quantitativa Contínua ( ) Quantitativa Discreta ( ) Qualitativa Nominal ( ) Qualitativa Ordinal

A relação correta, na ordem apresentada, é

a) 4 – 2 – 3 – 1.
b) 4 – 2 – 1 – 3.
c) 2 – 4 – 1 – 3.
d) 2 – 4 – 3 – 1.
e) 1 – 2 – 3 – 4.

3

Q1037588 • Legislação dos TRFs • Conselho Nacional de Justiça Cnj • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Os Manuais e Protocolos criados pela Resolução CNJ nº 396/2021, que instituiu a Estratégia Nacional de Segurança Cibernética do Poder Judiciário (ENSEC-PJ) e aprovados pela Portaria nº 162 de 10/06/2021 normatizam diversas atividades na área de segurança cibernética a serem implantadas pelos diversos órgãos do Poder Judiciário.
Com base nos Manuais e Protocolos aprovados pela Portaria nº 162 de 10/06/2021, analise as informações a seguir.

I. Os Protocolos e Manuais serão atualizados a qualquer tempo por indicação do Comitê Gestor de Segurança Cibernética do Poder Judiciário.
II. O Protocolo de Investigação de Ilícitos Cibernéticos do Poder Judiciário (PIILC-PJ) deverá ser implementado por todos os órgãos do Poder Judiciário, com exceção do Supremo Tribunal Federal.
III. O Manual de Proteção de Infraestruturas de TIC descreve as ações responsivas a serem colocadas em prática quando ficar evidente que um incidente de segurança cibernética não será mitigado rapidamente e poderá durar dias, semanas ou meses.

Está correto o que se afirma em

a) I, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) II e III, apenas.
e) I, II e III.

4

Q1037587 • Conhecimentos Bancários • Inovação e Atualidades do Mercado Financeiro • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Regtechs e Suptechs têm se destacado como grandes tendências no sistema financeiro. Com a modernização do setor e o crescimento das fintechs, o mundo tem presenciado uma série de transformações regulatórias para acompanhar e fomentar essas inovações.
Nesse contexto, analise as seguintes afirmações sobre Regtech e Suptech.

I. Suptech é voltada para as autoridades reguladoras, permitindo monitorar em tempo real o mercado e as instituições financeiras. Com o uso de big data e análise preditiva, essas tecnologias ajudam a identificar riscos, prevenir crises e garantir a estabilidade financeira.

II. O Suptech é voltado tanto para as autoridades reguladoras quanto para as empresas, com o objetivo de aprimorar a supervisão dos sistemas, aumentando a eficiência no monitoramento de transações e na detecção de fraudes.

III. As soluções de Regtech se concentram exclusivamente na gestão de dados e riscos das empresas, sem abordar aspectos relacionados a compliance ou a geração de relatórios regulatórios.

Está correto o que se afirma em

a) I, apenas.
b) II, apenas.
c) III, apenas.
d) I e III, apenas.
e) II e III, apenas.

5

Q1037586 • Engenharia de Software • Inteligencia Artificial • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Modelos de linguagem de larga escala (Large Language Models - LLM) são frequentemente utilizados em processamento de linguagem natural, e podem gerar resultados inesperados em resposta às consultas dos usuários. Essas respostas são chamadas de alucinações dos modelos. Uma técnica usada para se evitar tais alucinações consiste em combinar os modelos generativos com sistemas de recuperação de informações, permitindo buscas em bases de dados mais confiáveis e melhorando a qualidade das respostas geradas.
A essa técnica dá-se o nome de

a) Lematização (Lemmatization).
b) Recuperação por Análise de Dependência (Dependency Parsing Retrieval).
c) Recuperação de Entidades Nomeadas (Named Entity Retrieval).
d) Geração Aumentada por Recuperação (Retrieval-Augmented Generation).
e) Geração de Partes do Discurso (Part-of-Speech Generation).

6

Q897181 • Sistemas Operacionais • Virtualização • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Analise as seguintes afirmações sobre conteinerização e orquestração de contêineres.

I. Em sistemas conteinerizados, é recomendado que todos os contêineres compartilhem o mesmo sistema de arquivos e ambiente de rede para garantir consistência entre os serviços.
II. Em ferramentas de orquestração como Kubernetes, a comunicação entre contêineres pode ser gerenciada por uma rede de sobreposição, que permite a comunicação direta entre contêineres em diferentes nós, sem expor seus endereços IP ao ambiente externo.
III. A principal vantagem da conteinerização em relação à virtualização tradicional é a capacidade de compartilhar o kernel do sistema operacional host, o que garante isolamento total entre contêineres, como em máquinas virtuais.

É correto o que se afirma em

a) I, apenas.
b) II, apenas.
c) I e II, apenas.
d) II e III, apenas.
e) I, II e III.

7

Q897180 • Segurança da Informação • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Considerando os conceitos e ferramentas relacionados a serviços de autenticação/autorização, webhooks e message brokers, avalie se as afirmativas a seguir são verdadeiras (V) ou falsas (F).

( ) Um dos principais objetivos do SAML é proporcionar Single-Sign On (SSO), isto é, permitir que um usuário se autentique uma vez e tenha acesso a outros sistemas sem a necessidade de fornecer novamente suas credenciais.
( ) No protocolo MQTT do RabbitMQ, a publicação de mensagens acontece dentro do contexto de um link.
( ) Keycloak permite a implementação de Single-Sign On (SSO) e fornece suporte para OpenID Connect e OAuth 2.0.

As afirmativas são, respectivamente,

a) V – F – F.
b) V – F – V.
c) V – V – F.
d) F – F – V.
e) F – V – V.

8

Q897179 • Banco de Dados • FGV • TJ RR • Ciência de Dados e Analytics • 2024

O H2 Database é um sistema de gerenciamento de banco de dados relacional open source desenvolvido em Java.
A respeito de características do H2 Database, julgue as seguintes afirmativas.

I. O modo incorporado é mais lento que o modo servidor.
II. No modo servidor, uma aplicação abre um banco de dados remotamente por meio da API JDBC ou ODBC.
III. Não é possível combinar conexões locais e remotas ao mesmo tempo.

Está correto o que se afirma em

a) II, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) II e III, apenas.
e) III, apenas.

9

Q897178 • Arquitetura de Software • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Uma API REST (Representational State Transfer) é uma interface que permite a comunicação entre sistemas utilizando um determinado protocolo em que os recursos são acessados e manipulados por meio de requisições padrão como GET, POST, PUT e DELETE, seguindo princípios de simplicidade, escalabilidade e independência de plataforma.
Isso posto, assinale a afirmativa correta a seguir sobre API REST.

a) Normalmente, uma solicitação PUT cria um novo registro.
b) Nenhum dado do cliente é armazenado no servidor entre as solicitações e toda solicitação é separada e desconectada.
c) Não há a possibilidade de utilização de cache.
d) Utiliza WSDL como linguagem de descrição de serviços web.
e) É um protocolo com requisitos específicos, como a mensageria XML.

10

Q897177 • Programação • Frameworks Java • FGV • TJ RR • Ciência de Dados e Analytics • 2024

O Envers é um módulo presente no Hibernate ORM que proporciona uma forma fácil de auditar suas classes entidades.
Diante desse contexto, marque (V) para a(s) afirmativa(s) verdadeiras e (F) para a(s) afirmativa(s) falsas acerca do Envers.

( ) É necessário adicionar a dependência hibernate-envers ao classpath.
( ) Bem como controladores de versão do código-fonte, o Envers emprega um conceito de revisões.
( ) Para que uma entidade ou propriedades de entidade sejam auditadas, é preciso anotá-las com @Audited.

As afirmativas são, respectivamente,

a) V – V – V.
b) V – V – F.
c) F – F – V.
d) V – F – F.
e) F – V – V.

11

Q897176 • Programação • Linguagens de marcação • FGV • TJ RR • Ciência de Dados e Analytics • 2024

“É uma API de persistência POJO para mapeamento de objetos/relacional que permite o uso de anotações de metadados da linguagem Java e/ou descritores XML para definir o mapeamento entre objetos Java e um banco de dados relacional.”
O texto faz referência a

a) EJB.
b) Spring Boot.
c) Thymeleaf.
d) Zuul.
e) JPA.

12

Q897175 • Programação • Linguagens de programação • FGV • TJ RR • Ciência de Dados e Analytics • 2024

A Plataforma Digital do Poder Judiciário Brasileiro (PDPJ-Br) foi criada com o intuito de integrar todos os tribunais brasileiros no que tange à gestão de processo judicial eletrônico.
Entre as diretrizes relacionadas ao processo de desenvolvimento de módulos e serviços na PDPJ-Br, cabe salientar o emprego preferencial da seguinte linguagem de programação.

a) Java.
b) Julia.
c) PHP.
d) Python.
e) Ruby.

13

Q897174 • Programação • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Os dados são importante elemento de apoio à tomada de decisão, sendo que algumas aplicações geram quantidade massiva e heterogênea de dados, com alta velocidade. Para lidar com esse cenário, foi desenvolvido um modelo de programação que consiste em dividir, processar e combinar os dados em paralelo, de forma a acelerar o processamento e garantir a confiabilidade dos resultados.
Assinale o modelo que contém as características elencadas no enunciado.

a) Data Warehousing.
b) Elastic Search.
c) Hadoop.
d) MapReduce.
e) NoSQL.

14

Q897173 • Banco de Dados • Administração de banco de dados • FGV • TJ RR • Ciência de Dados e Analytics • 2024

O DMBOK é organizado em torno de 11 (onze) Áreas de Conhecimento do Framework de Gerenciamento de Dados DAMADMBOK. Essas áreas abrangem o escopo e o contexto de diversos conjuntos de atividades relacionadas ao gerenciamento de dados, incorporando os objetivos e princípios fundamentais dessa disciplina.
Assinale a área de conhecimento que aborda a definição e o planejamento para a gestão dos ativos de dados, alinhando-os com a estratégia organizacional para estabelecer uma estrutura de dados eficiente.

a) Governança de Dados.
b) Segurança de Dados.
c) Arquitetura de Dados.
d) Metadados.
e) Documentação e gestão do conteúdo.

15

Q897172 • Banco de Dados • Administração de banco de dados • FGV • TJ RR • Ciência de Dados e Analytics • 2024

De acordo com o DAMA-DMBOK, 2ª edição, com relação à qualidade de dados, avalie as afirmativas a seguir e assinale (V) para a verdadeira e (F) para a falsa.

( ) A qualidade de um dado depende em se atender às necessidades e expectativas daqueles que consomem esse dado. Dessa forma, a qualidade de um dado depende do contexto e necessidade dos consumidores desse dado.
( ) Ao analisar um determinado conjunto de dados, um Analista pode utilizar o Data Profiling para inspecionar dados e melhorar sua qualidade, corrigindo problemas. Exemplos de procedimentos compreendidos pelo Data Profiling incluem a identificação e remoção de outliers, assim como valores duplicados e a adição de atributos como Time/Date stamps.
( ) Data Enhancement, ou simplesmente enriquecimento, consiste em aprimorar um conjunto de dados existentes, para aumentar sua qualidade e usabilidade. Esse aprimoramento deve utilizar exclusivamente fontes internas à organização, uma vez que essas são consideradas mais confiáveis do que fontes externas.

As afirmativas são, respectivamente,

a) V – V – V.
b) V – F – F.
c) F – V – F.
d) F – F – V.
e) V – F – V.

16

Q897171 • Banco de Dados • Administração de banco de dados • FGV • TJ RR • Ciência de Dados e Analytics • 2024

A Analista Judiciária Bianca, ao verificar um conjunto de dados, identificou que alguns valores não eram condizentes com o domínio definido para aqueles dados, de acordo com o DAMA-DMBOK.
Assinale a opção que apresenta a dimensão da qualidade de dados mais afetada nesse caso.

a) Consistency.
b) Validity.
c) Legitimacy.
d) Reasonability.
e) Accuracy.

17

Q897170 • Programação • FGV • TJ RR • Ciência de Dados e Analytics • 2024

O processamento MapReduce consiste na aplicação de um algoritmo de computação distribuída para processar grandes conjuntos de dados em um cluster de computadores, dividindo cálculos complexos em tarefas menores e que podem ser executadas em paralelo. O MapReduce é implementado em etapas. Em uma dessas etapas, os dados de entrada divididos em partes são transformados em conjuntos de pares chave-valor (i.e., key-value pairs) adequados para o processamento paralelo e distribuído.
A essa etapa do MapReduce dá-se o nome de

a) divisão de entrada (input splitting).
b) mapeamento (mapping).
c) embaralhamento (shuffling).
d) classificação (sorting).
e) redução (reducing).

18

Q897169 • Programação • FGV • TJ RR • Ciência de Dados e Analytics • 2024

A ingestão de dados consiste na coleta, importação ou transferência de dados para um sistema de armazenamento e processamento. Em geral, a ingestão de dados representa o primeiro passo em um pipeline de processamento. Os dois principais métodos de ingestão de dados são a ingestão em lote (batch) e a ingestão em tempo real (streaming).
A respeito desses métodos, avalie as afirmativas a seguir.

I. A ingestão em lotes se dá continuamente ao longo do tempo e é utilizada quando há necessidade de se processar os dados imediatamente após sua coleta.
II. A ingestão em tempo real incorpora novos dados em massa, em intervalos ou blocos periodicamente transmitidos da fonte para o dispositivo em que ocorre o processamento.
III. Em ambos os métodos, é comum que os dados sejam transformados e validados, garantindo-se assim a precisão e a consistência das informações ingeridas.

Está correto o que se afirma em

a) I, apenas.
b) II, apenas.
c) III, apenas.
d) I e II, apenas.
e) I, II e III.

19

Q897168 • Sistemas Operacionais • FGV • TJ RR • Ciência de Dados e Analytics • 2024

A normalização numérica é utilizada para o tratamento de dados, especialmente quando o processamento é dificultado por conta de as características de instâncias estarem distribuídas em diferentes escalas e intervalos. Uma técnica comum de normalização numérica utilizada para o tratamento de outliers é o escalonamento robusto, que se utiliza da mediana e da distância entre o primeiro e o terceiro quartis para efetuar o escalonamento dos dados.

Considere o conjunto de dados a seguir.

[3, 5, 7, 8, 10, 12, 15, 20, 22, 30, 50]

O valor normalizado por escalonamento robusto referente ao elemento “22” é dado aproximadamente por

a) 0,364.
b) 0,397.
c) 0,404.
d) 0,440.
e) 0,667.

20

Q897167 • Engenharia de Software • FGV • TJ RR • Ciência de Dados e Analytics • 2024

Um dos principais objetivos dos algoritmos de aprendizado de máquinas é o de estabelecer um modelo que melhor descreva as relações entre variáveis de um conjunto de dados. Em algumas situações, ao serem treinados, os modelos ajustam-se demasiadamente aos dados do conjunto, capturando até mesmo padrões relacionados aos ruídos dos dados. Esses modelos tendem a ser excessivamente complexos e a ter um mau desempenho na generalização, isto é, nas etapas em que é necessário processar novas instâncias de dados não pertencentes ao conjunto de treinamento original.

Uma maneira de mitigar esse comportamento inconveniente é usar técnicas de

a) overfitting.
b) backpropagation.
c) incremento de dimensionalidade.
d) regularização.
e) underfitting.

Questões de Concursos

Resolva questões de Ciência de Dados e Analytics comentadas com gabarito, online ou em PDF, revisando rapidamente e fixando o conteúdo de forma prática.

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Reportar erro em questao

Busca no Site