Questões de Concursos

Filtre e encontre questões para seus estudos.

Osoutlierssão dados que se diferenciam drasticamente de todos os outros. Em outras palavras, umoutliersé um valor que foge da normalidade e que pode causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise Sobre o tema, analise as afirmativas a seguir.

I. Uma das melhores formas de identificar dadosoutliersé utilizando gráficos, porque, ao plotar um gráfico, o analista consegue claramente perceber que existe algo diferente.

II. A maneira mais complexa, mas bastante precisa, de encontraroutliersem uma análise de dados, é encontrar a distribuição estatística que mais se aproxima à distribuição dos dados e utilizar métodos estatísticos para detectar os pontos discrepantes.

III. Os outliers podem ser excluídos do gráfico, uma vez que as estratégias de tratamento deoutliersnão têm impacto direto em negócios e aumentam o tempo e os custos do trabalho ou projeto.


Está correto o que se afirma em
Um modelo de regressão múltipla foi utilizado para estudar o consumo do gás natural em função de vários fatores levantados por especialistas. Nesse modelo adotado foi realizado uma análise de resíduos e verificou-se a presença de outliers.

Para verificar se um outlier é influente ou não, o método mais apropriado seria
Uma equipe de pesquisadores em políticas públicas de saúde laboral deseja estimar a proporção de indivíduos de determinada população que estão sofrendo de problemas relacionados a burnout. A estimação será feita utilizando técnicas de Inferência Estatística.
A equipe tem acesso a qualquer indivíduo dessa população, mas tem capacidade para coletar os dados de apenas uma parcela irrisória da população como um todo. A composição e as características gerais dessa população são totalmente desconhecidas.
Diante desse cenário, a equipe de pesquisa deve fazer sua coleta de dados mediante um processo de amostragem
A variável y segue um processo representado por yt = φ1 yt–1 + φ2 yt–2 + εt + θεt –1 , sendo εt um ruído branco.
Esse processo é denominado

Se consideramos que a região centro-oeste do Brasil com área aproximada de 1.600.000 km2 é composta por 14,4 milhões de habitantes e que a região norte do Brasil com área de 3.900.000 km2 é composta por 15,6 milhões de habitantes, então podemos dizer que a diferença entre as densidades demográficas dessas duas regiões é _____.
Assinale a alternativa que preencha corretamente a lacuna
Considere o caso mais simples de uma variável independente e de uma variável dependente, em que a forma de relação entre ambas é linear: Y = α + βX + ε. Nesse caso, Xé usado para representar a variável independente e Y é usado para representar a variável dependente. Salienta-se que as letras maiúsculas X e Y representam a designação das variáveis aleatórias, já as minúsculas, valores específicos das variáveis aleatórias. Por sua vez, “ε” é um termo de distúrbio ou erro estocástico com média zero. Considerando essas informações e conhecimentos adicionais sobre análise de regressão linear simples, analise as afirmativas a seguir.

I. O valor da variável dependente Y é considerado como o de uma variável aleatória, que depende de valores fixos (não aleatórios) da variável independente X.
II. Uma relação teórica em linha reta existe entre Y e o valor esperado de X para cada um dos valores possíveis de X. Essa linha de regressão teórica: E (Y ̸X) = α + βX possui uma inclinação α e uma interseção β. Os coeficientes de regressão α e β constituem parâmetros de população, cujos valores são desconhecidos e se deseja estimá-los.
III. Associada a cada valor de X, existe uma distribuição de probabilidade p(y ̸x) dos valores possíveis da variável aleatória Y. Quando X for igual a um valor xi, o valor de Y observado será obtido da distribuição de probabilidade p(y ̸xi) e não estará necessariamente na linha de regressão teórica.

Quanto às premissas subjacentes ao modelo de regressão linear simples, está correto o que se afirma apenas em
O coeficiente alfa de Cronbach foi apresentado por Lee J. Cronbach, em 1951, como uma forma de estimar a confiabilidade de um questionário aplicado em uma pesquisa. Sobre esse coeficiente, analise as afirmativas a seguir.

I. O coeficiente α é um índice utilizado para medir a confiabilidade do tipo consistência interna de uma escala, ou seja, para avaliar a magnitude em que os itens de um instrumento estão correlacionados.
II. O cálculo do coeficiente α é feito a partir da mediana dos itens individuais e da variância da soma dos itens de cada avaliador.
III. A consistência interna de um questionário é tanto maior quanto mais perto de 0 estiver o valor do coeficiente α.

Está correto o que se afirma em
O diâmetro X de rolamentos esféricos produzidos por uma fábrica segue uma distribuição normal com µ=0,614 e σ=0,0025. O lucro L de cada peça depende do seu diâmetro.
L = R$0,10, se o rolamento for bom (0,61 < X < 0,618) L = R$0,05, se o rolamento for recuperável, (0,608 < X < 0,61) ou (0,618 < X < 0,62) L = - R$0,10, se o rolamento for defeituoso, (X < 0,608) ou (X > 0,62)
Assinale a alternativa que apresenta o lucro.
Uma regressão entre duas variáveis não estacionárias
Um pesquisador desenvolveu um estudo longitudinal para analisar o consumo de energia elétrica mensal de empresas do setor energético de determinada região, ao longo dos últimos 40 anos. Analisando a base de dados coletada, o pesquisador verificou que a base tinha vários dados faltantes e que necessitava utilizar alguma técnica de imputação de dados.

Assinale a opção que apresenta a técnica mais apropriada para o estudo do pesquisador.
Suponha que o número de patentes registradas anualmente tenha uma distribuição com parâmetro λ. Suponha ainda que, em 5 anos, foram registradas 2, 5, 3, 1, 4 patentes. O estimador para o parâmetro λ é
Sobre avaliação de resultados de classificação, relacione os termos elencados a seguir, às respectivas definições.
1. Acurácia Global 2. Matriz de confusão 3. Acurácia do produtor 4. Acurácia do usuário
( ) Relacionada aos erros de comissão, indica a proporção de amostras classificadas corretamente para uma determinada classe em relação ao número total de amostras classificadas como sendo dessa classe. ( ) Índice que representa uma avaliação geral do desempenho de um modelo de classificação. ( ) Tabela específica que tem como intuito permitir a visualização do desempenho do modelo de classificação. ( ) Relacionada aos erros de omissão, representa a proporção de amostras classificadas corretamente para uma determinada classe em relação ao número total de amostras de referência pertencentes a essa classe.
Assinale a opção que apresenta a relação correta, na ordem apresentada.
A respeito das métricas que podem ser calculadas a partir da Matriz de Confusão, considere a seguinte expressão:
“Indica a proporção de verdadeiros positivos em relação ao total de amostras positivas da referência.”
Assinale a opção que indica o termo corretamente definido pela expressão.
Durante muitos anos o coeficiente kappa que, originalmente, foi desenvolvido para comparação entre classificações feitas por dois especialistas diferentes, vem sendo utilizado na avaliação de resultados de mapeamentos temáticos resultantes de classificações digitais.
Sobre aspectos envolvendo o coeficiente kappa, analise as afirmativas a seguir.
I. O kappa tem características similares ao cálculo da acurácia global, sobretudo por ignorar os valores que estão dispostos fora da diagonal principal da matriz de confusão. II. O kappa faz uma comparação entre a concordância da classificação observada e a concordância esperada ao acaso. Se a concordância esperada ao acaso for alta, mesmo um modelo de classificação mediano pode ter um valor de kappa alto, causando conclusão enganosa sobre seu real desempenho. III. O kappa não leva em conta se algumas classes são muito mais comuns do que outras. Isso significa que ele pode não refletir com precisão o quão bem a classificação se saiu nas classes menos frequentes.
Está correto o que se afirma em

Um pesquisador está desenvolvendo um modelo estatístico para descrever a ocorrência de falhas em sensores em uma rede de equipamentos agrícolas. Com base em dados históricos, que incluem registros de falhas e fatores associados, tais como temperatura, umidade e frequência de transmissão dos sensores, o pesquisador obteve as seguintes informações:


• a probabilidade de um sensor falhar (F) em condições de alta umidade (U) é P(F | U) = 0,4;

• a incidência de eventos de alta umidade é dada pela probabilidade P(U) = 0,3;

• a probabilidade de um sensor falhar em condições de alta temperatura (T) é P(F | T) = 0,2;

• a incidência de falhas é P(F) = 0,2.

Com respeito a essa situação hipotética, e tendo em conta ainda que 0 <P(T) < 1, julgue o item subsequente.

Os eventosFeTsão independentes.

Um técnico em laboratório de análises químicas realizou cinco medidas da concentração de glicose em uma amostra de soro, obtendo os seguintes valores (em mg/mL):

98,0 - 97,5 - 97,8 - 120,0 - 97,6

Com base nos conceitos de erros e tratamento estatístico de dados em análise química, o técnico deve considerar
Em um estudo técnico baseado em um grande conjunto de dados, foram empregadas técnicas de aprendizado de máquina e análise estatística para identificar padrões e outras informações. Entretanto, os resultados foram questionados, pois, embora tenha sido demonstrada existência de correlação, não foi estabelecida relação de causalidade.
Considerando as melhores práticas e os desafios da mineração de dados, analise as afirmativas a seguir.

I. Foram gerados insights a partir de dados válidos e confiáveis.
II. A equipe executora contava com especialistas com experiência em programação Python, R e SQL.
III. A metodologia empregada atendeu a literatura e outros estudos técnicos semelhantes, descrevendo que foi selecionada apenas uma base de informações de dados não estruturados atualizada para realizar o processamento, em virtude de limitações de capacidade computacional, dos custos envolvidos e dos testes que demonstraram a introdução de incerteza ao se realizar uma coleta ampla e profunda de conjuntos de dados.

Está correto o que se afirma em:
As ferramentas estatísticas são essenciais para o controle da produção, permitindo monitorar e melhorar processos industriais por meio da coleta, análise e interpretação de dados. Técnicas como gráficos de controle, análise de variabilidade e métodos de amostragem ajudam a identificar desvios, prevenir defeitos e garantir a qualidade do produto final, além de contribuir para a redução de custos e aumento da eficiência. Acerca das ferramentas estatísticas, relacione adequadamente as colunas a seguir.

1.Gráfico de controle.
2.Histograma.
3.Diagrama de causa e efeito.
4. Amostragem estatística.
5. Capacidade do processo (Índice Cp).

( ) Ferramenta utilizada para identificar causas potenciais de problemas em um processo.
( ) Método que mede a capacidade de um processo em produzir dentro de limites especificados.
( ) Representação gráfica que ilustra a distribuição de frequências de um conjunto de dados.
( ) Técnica que permite monitorar a estabilidade de um processo ao longo do tempo.
( ) Método para coletar dados representativos de um processo ou lote, reduzindo custos de inspeção.

A sequência está correta em
A empresa Fernandes Ltda. possui dois investimentos W e Y. O departamento financeiro levantou as seguintes informações: o retorno esperado de W é de 1,5% e o de Y 1,4%. O desvio-padrão é de 10% para W e para Y. Considerando que o nível de risco absoluto é igual para ambas as alternativas de investimento pelo critério da variação relativa (coeficiente de variação), assinale qual investimento é mais arriscado.