Uma equipe de analistas de dados preparou um modelo preditivo
cuja entrada consiste em planilhas contendo uma matriz de
valores reais entre 1 e 10. Tais planilhas são obtidas de um
sistema externo à equipe. O modelo foi treinado com um
conjunto de planilhas que foi coletado pelos analistas, de forma a
obter uma amostra representativa dos dados a serem utilizados.
A média e o desvio padrão de duas colunas importantes foram
calculados do conjunto de treinamento, como uma forma simples
de verificar a consistência da distribuição dos dados, sendo seus
valores 4,89 e 3,08, respectivamente. O modelo obteve bons
resultados durante sua etapa de testes, com uma precisão de
94%.
Ao iniciar a operação do modelo com planilhas atuais, entretanto,
os analistas observaram que o modelo teve um desempenho
muito inferior, com precisão de apenas 72%. Investigando as
planilhas recebidas, obtiveram a média e o desvio padrão para as
duas colunas importantes com valores 5,34 e 3,68,
respectivamente.
A explicação mais adequada à situação descrita é:
✂️ a) as planilhas atuais contêm ruído: valores ausentes nas
colunas importantes; ✂️ b) a distribuição dos valores nas planilhas atuais não
corresponde mais aos dados usados no treinamento, pois
foram coletadas em momentos diferentes (drifting); ✂️ c) a distribuição dos valores nas planilhas atuais não
corresponde mais aos dados usados no treinamento devido a
uma mudança na posição das colunas; ✂️ d) a distribuição dos valores nas planilhas de treinamento não
corresponde aos dados atuais, pois a amostra obtida pelos
analistas não foi representativa; ✂️ e) as planilhas atuais contêm ruído: valores fora do intervalo
definido para o modelo.