IDENTIFICAÇÃO DE OUTLIERS EM DADOS DE ACIDENTES DE TRÂNSITO NO BRASIL: ANÁLISE DE CLUSTER VERSUS MÉTODOS ESTATÍSTICOS
Abstract
A avaliação e tratamento inicial dos dados é fundamental em qualquer análise de acidentes de trânsito e desenvolvimento de modelos. Um dos aspectos que pode induzir ao enviesamento dos resultados é a não identificação ou tratamento de valores discrepantes, os outliers. Neste trabalho investigou-se o potencial do uso de análise de cluster para detecção de outliers frente às técnicas estatísticas tradicionalmente utilizada para tal finalidade. Foram utilizados 28.034 registros de acidentes, acumulados de 2011 a 2016 num trecho de 170 km da BR-116/RJ. Dentre as técnicas estatísticas, o método do desvio-padrão apresentou razoabilidade nos resultados, mas dificuldade na aplicação conjunta dos limites univariados de valores discrepantes. Já os métodos Boxplot e MAD se revelaram inadequados para a detecção de outliers na base de dados analisada, uma vez que conduziram a resultados incoerentes e sem consistência prática. A análise de cluster (algoritmo k-means), doutro lado, demonstrou ter potencial para aplicação a este tipo de problema, tendo identificado conjuntos coerentes de outliers para a base de dados. O método não tem rígidas limitações a pressupostos estatísticos, é adequado a grandes bases de dados, permite a avaliação multivariada dos dados e ainda, a análise combinada de dados categóricos e numéricos. Ainda assim, o emprego do método deve ser feito de forma a tirar proveito dos pontos fortes da técnica e minimizar suas limitações.
References
BARNETT, V.; LEWIS, T. Outliers in Statistical Data, Wiley Series in Probability and Mathematical Statistics. v. 3. John Wiley & Sons, 1994.
BERTON, L. Caracterização de classes e detecção de outliers em redes complexas. Dissertação de Mestrado. Programa de Pós-Graduação em Ciências de Computação e Matemática Aplicada. Universidade de São Paulo. São Carlos, 2011.
CHANDOLA, V; BANERJEE, A.; KUMAR, V. Outlier detection-A survey. ACM Computing Surveys, 2009.
DATASUS. Departamento de Informática do SUS. Disponível em: http://datasus.saude.gov.br/. Acesso em 23 jul. 2018.
FRALEY, C.; RAFTERY, A. E. Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, v. 97, n. 458, p. 611-631, 2002.
GUO, J.; HUANG, W.; WILLIAMS, B. M. Real time traffic flow outlier detection using short-term traffic conditional variance prediction. // Transportation Research Part C: Emerging Technologies, n. 50, p. 160–172, 2015.
GRUBBS, F. E. Procedures for detecting outlying observations in samples. Technometrics, v. 11, n. 1, p. 1–21, 1969.
HAIR, J. F; ANDERSON, T. E.; TATHAM, R. L.; BLACK, W.C. Multivariate data analysis, 5 ed., Prentice- Hall, New Jersey, 1998.
HAMPEL, F. R. The influence curve and its role in robust estimation. Journal of the American Statistical Association, v. 69, n. 346, p. 383–393, 1974.
HAWKINS, D. Identification of Outliers. London: Chapman and Hall, 1980.
HOWELL, D. C. Statistical methods in human sciences. New York: Wadsworth, 1998.
JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Analysis, 5 ed. New Jersey: Prentice Hall, 2002.
MACQUEEN, J. B. Some methods for classification and analysis of multivariate observations. In: CAM, L. M. L.; NEYMAN, J. (Ed.). Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability. [S.l.]: University of California Press, v. 1, p. 281–297, 1967.
OMS. Organización Mundial de la Salud. Informe sobre la situación mundial de la seguridad vial: es hora de pasar a la acción. Genebra. 287 p., 2010.
PRASAD, N.; KUMAR, P.; NAIDU, M. M. An Approach to Prediction of Precipitation Using Gini Index in SLIQ Decision Tree. In: 4th International Conference on Intelligent Systems, Modelling and Simulation. Bangkok, 2013.
ROUSSEEUW, P. J.; LEROY, A. M. Robust Regression and Outlier Detection. John Wiley: 1987.
SUN, B.; CHENG, W.; BAI, G.; GOSWAMI, P. CORRECTING AND COMPLEMENTING FREEWAY TRAFFIC ACCIDENT DATA USING MAHALANOBIS DISTANCE BASED OUTLIER DETECTION. Technical Gazette, n. 24, v. 5, p. 1597-1607, 2017.
TURKEY, J. Exploratory Data Analysis. Addison-Wesley: 1977.
WHO. World Health Organization. GLOBAL STATUS REPORT ON ROAD SAFETY 2015. Genebra. 323 p., 2015.
XUESONG, W.; QIANG, G.; SHANSHAN, L.; RONGFEI, C. Design and Implementation of School Hospital Information Analysis and Mining System. Applied Science, Materials Science and Information Technologies in Industry, n. 513, p. 498–501, 2014.
Downloads
Published
Issue
Section
License
Este obra está licenciado com uma Licença Creative Commons Atribuição 4.0 Internacional.