Uma equipe de ciência de dados está trabalhando na construção de um modelo preditivo utilizando um grande conjunto de
dados. Durante esse processo, os cientistas de dados estão realizando o feature engineering para criar e selecionar as variáveis mais relevantes, além de aplicar técnicas de divisão de dados para garantir a eficácia e a generalização do modelo.
Considerando-se esse contexto, qual combinação de técnicas maximizará a performance do modelo?
a) A aplicação de técnicas de criação de features, como a interação entre variáveis, e em seguida a divisão do conjunto
de dados em três partes: treinamento, validação e teste, utilizando 70% para treinamento, 15% para validação e 15%
para teste, assegurando, com isso, que os três conjuntos sejam desbalanceados para refletir a distribuição real dos
dados.
b) A aplicação de transformações matemáticas, como a normalização, apenas no conjunto de teste, para evitar a distorção das variáveis de entrada, e a divisão dos dados restantes igualmente entre treinamento e validação.
c) A realização da técnica de amostragem estratificada para dividir os dados entre treinamento, validação e teste, e em
seguida a aplicação da transformação de raiz quadrada em todas as variáveis para aumentar a variância das features,
garantindo que o modelo capture melhor os padrões nos dados.
d) A realização da transformação logarítmica em todas as variáveis categóricas antes de realizar a divisão dos dados, e
a garantia de que o conjunto de validação seja maior que o de treinamento para prevenir overfitting.
e) A realização da seleção de features com a utilização de técnicas de análise de correlação, descartando as variáveis
altamente correlacionadas, e a aplicação da divisão dos dados em conjuntos de treinamento e teste usando uma divisão 80/20, aplicando a validação cruzada (cross-validation) para ajustar os hiperparâmetros do modelo.