IMPACTO DO RUÍDO NA PERFORMANCE DE MODELOS DE MACHINE LEARNING: UM ESTUDO DE CASO COM O DATASET IRIS

Autores/as

Resumen

Este estudo avalia a robustez de quatro algoritmos clássicos de classificação — K-Nearest Neighbors (KNN), Decision Tree, Random Forest e Support Vector Machine (SVM) — frente à introdução de ruído no conjunto de dados Iris, amplamente utilizado em pesquisas anteriores. Foram aplicados cinco níveis de ruído (0% a 40%) aos atributos numéricos do dataset, simulando variações reais em dados de entrada. Os modelos foram implementados em Python com o uso das bibliotecas scikit-learn, numpy, pandas, matplotlib, seaborn e statsmodels. A avaliação foi feita por meio de validação cruzada, utilizando as métricas de acurácia, F1-score e recall. Os resultados foram submetidos a testes estatísticos de ANOVA e Tukey para verificar diferenças significativas entre os desempenhos dos algoritmos. Os resultados indicam que todos os modelos apresentaram alta performance com dados limpos, com destaque para KNN e SVM. À medida que o ruído aumentou, o Decision Tree mostrou maior sensibilidade, enquanto Random Forest e SVM demonstraram maior estabilidade. No entanto, os testes estatísticos não identificaram diferenças significativas entre os modelos em nenhum nível de ruído (p > 0,62), sugerindo que as variações práticas observadas não são estatisticamente relevantes. O estudo reforça a utilidade do dataset Iris como benchmark e destaca a importância da análise estatística na avaliação da robustez de algoritmos de classificação em cenários com dados ruidosos.

Publicado

2026-04-27