IMPACTO DO RUÍDO NA PERFORMANCE DE MODELOS DE MACHINE LEARNING: UM ESTUDO DE CASO COM O DATASET IRIS

Gabriel de Lara; Luis Molotto; Victor Cerqueira

Autores/as

Gabriel de Lara Universidade Estudual de Ponta Grossa https://orcid.org/0009-0002-1694-9168
Luis Molotto Universidade Estudual de Ponta Grossa https://orcid.org/0009-0006-3252-2729
Victor Cerqueira Universidade Estadual de Ponta Grossa https://orcid.org/0009-0007-2712-9786

Resumen

Este estudo avalia a robustez de quatro algoritmos clássicos de classificação — K-Nearest Neighbors (KNN), Decision Tree, Random Forest e Support Vector Machine (SVM) — frente à introdução de ruído no conjunto de dados Iris, amplamente utilizado em pesquisas anteriores. Foram aplicados cinco níveis de ruído (0% a 40%) aos atributos numéricos do dataset, simulando variações reais em dados de entrada. Os modelos foram implementados em Python com o uso das bibliotecas scikit-learn, numpy, pandas, matplotlib, seaborn e statsmodels. A avaliação foi feita por meio de validação cruzada, utilizando as métricas de acurácia, F1-score e recall. Os resultados foram submetidos a testes estatísticos de ANOVA e Tukey para verificar diferenças significativas entre os desempenhos dos algoritmos. Os resultados indicam que todos os modelos apresentaram alta performance com dados limpos, com destaque para KNN e SVM. À medida que o ruído aumentou, o Decision Tree mostrou maior sensibilidade, enquanto Random Forest e SVM demonstraram maior estabilidade. No entanto, os testes estatísticos não identificaram diferenças significativas entre os modelos em nenhum nível de ruído (p > 0,62), sugerindo que as variações práticas observadas não são estatisticamente relevantes. O estudo reforça a utilidade do dataset Iris como benchmark e destaca a importância da análise estatística na avaliação da robustez de algoritmos de classificação em cenários com dados ruidosos.

IMPACTO DO RUÍDO NA PERFORMANCE DE MODELOS DE MACHINE LEARNING: UM ESTUDO DE CASO COM O DATASET IRIS

Autores/as

Resumen

Descargas

Publicado

Número

Sección

Licencia

Desarrollado por

Idioma

Información