IMPACTO DO RUÍDO NA PERFORMANCE DE MODELOS DE MACHINE LEARNING: UM ESTUDO DE CASO COM O DATASET IRIS
Abstract
Este estudo avalia a robustez de quatro algoritmos clássicos de classificação — K-Nearest Neighbors (KNN), Decision Tree, Random Forest e Support Vector Machine (SVM) — frente à introdução de ruído no conjunto de dados Iris, amplamente utilizado em pesquisas anteriores. Foram aplicados cinco níveis de ruído (0% a 40%) aos atributos numéricos do dataset, simulando variações reais em dados de entrada. Os modelos foram implementados em Python com o uso das bibliotecas scikit-learn, numpy, pandas, matplotlib, seaborn e statsmodels. A avaliação foi feita por meio de validação cruzada, utilizando as métricas de acurácia, F1-score e recall. Os resultados foram submetidos a testes estatísticos de ANOVA e Tukey para verificar diferenças significativas entre os desempenhos dos algoritmos. Os resultados indicam que todos os modelos apresentaram alta performance com dados limpos, com destaque para KNN e SVM. À medida que o ruído aumentou, o Decision Tree mostrou maior sensibilidade, enquanto Random Forest e SVM demonstraram maior estabilidade. No entanto, os testes estatísticos não identificaram diferenças significativas entre os modelos em nenhum nível de ruído (p > 0,62), sugerindo que as variações práticas observadas não são estatisticamente relevantes. O estudo reforça a utilidade do dataset Iris como benchmark e destaca a importância da análise estatística na avaliação da robustez de algoritmos de classificação em cenários com dados ruidosos.
Dowloads
Pubblicato
Fascicolo
Sezione
Licenza

Este obra está licenciado com uma Licença Creative Commons Atribuição 4.0 Internacional.