IDENTIFICAÇÃO DE OUTLIERS EM DADOS DE ACIDENTES DE TRÂNSITO NO BRASIL: ANÁLISE DE CLUSTER VERSUS MÉTODOS ESTATÍSTICOS

Autores

  • Philippe Barbosa Silva Instituto Federal Goiano - Campus Rio Verde Universidade de Brasília
  • Sara Maria Pinho Ferreira Universidade do Porto - Portugal
  • Zafeiris Kokkinogenis Universidade do Porto - Portugal
  • Michelle Andrade Universidade de Brasília

Resumo

A avaliação e tratamento inicial dos dados é fundamental em qualquer análise de acidentes de trânsito e desenvolvimento de modelos. Um dos aspectos que pode induzir ao enviesamento dos resultados é a não identificação ou tratamento de valores discrepantes, os outliers. Neste trabalho investigou-se o potencial do uso de análise de cluster para detecção de outliers frente às técnicas estatísticas tradicionalmente utilizada para tal finalidade.  Foram utilizados 28.034 registros de acidentes, acumulados de 2011 a 2016 num trecho de 170 km da BR-116/RJ. Dentre as técnicas estatísticas, o método do desvio-padrão apresentou razoabilidade nos resultados, mas dificuldade na aplicação conjunta dos limites univariados de valores discrepantes. Já os métodos Boxplot e MAD se revelaram inadequados para a detecção de outliers na base de dados analisada, uma vez que conduziram a resultados incoerentes e sem consistência prática. A análise de cluster (algoritmo k-means), doutro lado, demonstrou ter potencial para aplicação a este tipo de problema, tendo identificado conjuntos coerentes de outliers para a base de dados. O método não tem rígidas limitações a pressupostos estatísticos, é adequado a grandes bases de dados, permite a avaliação multivariada dos dados e ainda, a análise combinada de dados categóricos e numéricos. Ainda assim, o emprego do método deve ser feito de forma a tirar proveito dos pontos fortes da técnica e minimizar suas limitações.

Biografia do Autor

Philippe Barbosa Silva, Instituto Federal Goiano - Campus Rio Verde Universidade de Brasília

Professor do Departamento de Engenharia Civil do Instituto Federal Goiano - Campus Rio Verde

Sara Maria Pinho Ferreira, Universidade do Porto - Portugal

Professora do Departamento de Engenharia Civil da Universidade do Porto - Portugal

Zafeiris Kokkinogenis, Universidade do Porto - Portugal

Pesquisador do Laboratório de Inteligência Artificial e Ciência da Computação, Universidade do Porto - Portugal

Michelle Andrade, Universidade de Brasília

Professora do Departamento de Engenharia Civil e Ambiental da Universidade de Brasília

Referências

BARNETT, V.; LEWIS, T. Outliers in Statistical Data, Wiley Series in Probability and Mathematical Statistics. v. 3. John Wiley & Sons, 1994.

BERTON, L. Caracterização de classes e detecção de outliers em redes complexas. Dissertação de Mestrado. Programa de Pós-Graduação em Ciências de Computação e Matemática Aplicada. Universidade de São Paulo. São Carlos, 2011.

CHANDOLA, V; BANERJEE, A.; KUMAR, V. Outlier detection-A survey. ACM Computing Surveys, 2009.

DATASUS. Departamento de Informática do SUS. Disponível em: http://datasus.saude.gov.br/. Acesso em 23 jul. 2018.

FRALEY, C.; RAFTERY, A. E. Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, v. 97, n. 458, p. 611-631, 2002.

GUO, J.; HUANG, W.; WILLIAMS, B. M. Real time traffic flow outlier detection using short-term traffic conditional variance prediction. // Transportation Research Part C: Emerging Technologies, n. 50, p. 160–172, 2015.

GRUBBS, F. E. Procedures for detecting outlying observations in samples. Technometrics, v. 11, n. 1, p. 1–21, 1969.

HAIR, J. F; ANDERSON, T. E.; TATHAM, R. L.; BLACK, W.C. Multivariate data analysis, 5 ed., Prentice- Hall, New Jersey, 1998.

HAMPEL, F. R. The influence curve and its role in robust estimation. Journal of the American Statistical Association, v. 69, n. 346, p. 383–393, 1974.

HAWKINS, D. Identification of Outliers. London: Chapman and Hall, 1980.

HOWELL, D. C. Statistical methods in human sciences. New York: Wadsworth, 1998.

JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Analysis, 5 ed. New Jersey: Prentice Hall, 2002.

MACQUEEN, J. B. Some methods for classification and analysis of multivariate observations. In: CAM, L. M. L.; NEYMAN, J. (Ed.). Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability. [S.l.]: University of California Press, v. 1, p. 281–297, 1967.

OMS. Organización Mundial de la Salud. Informe sobre la situación mundial de la seguridad vial: es hora de pasar a la acción. Genebra. 287 p., 2010.

PRASAD, N.; KUMAR, P.; NAIDU, M. M. An Approach to Prediction of Precipitation Using Gini Index in SLIQ Decision Tree. In: 4th International Conference on Intelligent Systems, Modelling and Simulation. Bangkok, 2013.

ROUSSEEUW, P. J.; LEROY, A. M. Robust Regression and Outlier Detection. John Wiley: 1987.

SUN, B.; CHENG, W.; BAI, G.; GOSWAMI, P. CORRECTING AND COMPLEMENTING FREEWAY TRAFFIC ACCIDENT DATA USING MAHALANOBIS DISTANCE BASED OUTLIER DETECTION. Technical Gazette, n. 24, v. 5, p. 1597-1607, 2017.

TURKEY, J. Exploratory Data Analysis. Addison-Wesley: 1977.

WHO. World Health Organization. GLOBAL STATUS REPORT ON ROAD SAFETY 2015. Genebra. 323 p., 2015.

XUESONG, W.; QIANG, G.; SHANSHAN, L.; RONGFEI, C. Design and Implementation of School Hospital Information Analysis and Mining System. Applied Science, Materials Science and Information Technologies in Industry, n. 513, p. 498–501, 2014.

Downloads

Publicado

2019-04-12

Edição

Seção

Artigos