A MACHINE LEARNING-BASED FRAMEWORK FOR DETECTING FINANCIAL FRAUDULENT TRANSACTIONS
Resumo
O objetivo deste estudo foi desenvolver e avaliar modelos de aprendizado de máquina para a detecção de fraudes financeiras em transações, visando mitigar perdas econômicas e apoiar a tomada de decisões em instituições bancárias. A metodologia envolveu o uso do conjunto de dados público Credit Card Fraud Detection, composto por 284.807 transações, das quais apenas 492 foram fraudulentas (≈ 0,172%). Os algoritmos Random Forest e XGBoost foram testados, com e sem a aplicação da técnica de balanceamento SMOTE. A avaliação foi conduzida utilizando métricas como precisão, recall, F1-score, MCC, além das curvas ROC e de Precisão-Recall. Complementarmente, uma validação qualitativa foi realizada por meio de entrevistas com quatro especialistas do setor financeiro, a fim de analisar a aplicabilidade prática dos modelos. Os resultados mostraram que todos os modelos apresentaram alto desempenho geral, com áreas sob a curva ROC acima de 0,96. O XGBoost com SMOTE alcançou maior sensibilidade, com recall de 85% e 15 falsos negativos, porém com um aumento de falsos positivos (22). Por outro lado, o Random Forest sem SMOTE obteve melhor precisão (0,94) e a maior pontuação F1 (0,87), mas falhou na detecção de 18 casos de fraude. O Random Forest com SMOTE apresentou desempenho intermediário. A validação qualitativa confirmou a relevância dos modelos, com 75% dos especialistas priorizando a máxima detecção de fraudes, mesmo com um maior número de falsos alarmes, e 25% valorizando a redução de falsos alarmes, mesmo que isso signifique menor sensibilidade. Conclui-se que a escolha do modelo deve considerar o equilíbrio entre recall e precisão, alinhado às prioridades institucionais entre reduzir perdas financeiras e minimizar a sobrecarga operacional. O estudo também destaca limitações, como o uso de um conjunto de dados temporal específico e a ausência de otimização avançada de hiperparâmetros. Para trabalhos futuros, sugere-se explorar o ajuste de parâmetros, o aprendizado incremental e a validação em conjuntos de dados contemporâneos, visando maior robustez e aplicabilidade prática dos modelos.
