Análise Comparativa de Técnicas de Amostragem para Classificação em Dados Desbalanceados: Um Guia Referencial
Desbalanceamento de Classes; Amostragem de Dados; Aprendizagem de Máquina; Aprendizado Profundo
O problema do desbalanceamento de classes exige o uso de técnicas de amostragem para reequilibrar os dados de treinamento, mas a revisão sistemática da literatura revelou uma lacuna crítica: a falta de estudos que avaliem a generalização dos algoritmos em bases de dados com diferentes representações e temas, limitando a reprodutibilidade dos achados. Este trabalho propõe preencher essa lacuna por meio de um protocolo de avaliação generalizado, categorizando as bases de dados por Índice de Desbalanceamento, Número de Amostras e Tipo de Dado, onde os atributos de imagem foram extraídos utilizando SIFT e Descritores de Haralick, e os dados tabulares tiveram a redundância reduzida pela Correlação de \textit{Pearson} (descarte de $\rho > 0.95$). Os experimentos compararam o desempenho da amostragem em classificadores diversos, incluindo KNN, SVM, Random Forest e a rede neural \textit{MobileNetV2}, cuja escolha otimiza o equilíbrio entre precisão e custo computacional, utilizando nela duas funções de perda distintas, a \textit{Cross Entropy Loss} e a \textit{Focal Loss}. Os resultados, que foram formalmente ranqueados considerando o desvio padrão das métricas para validar a robustez, confirmaram que a técnica ótima é contingente à interação entre as características da base e o classificador. O produto final é um Guia Referencial que mapeia as combinações mais eficazes, transformando a escolha da amostragem em um processo científico e generalizável.