Una revisión de los algoritmos de partición más comunes en el análisis de conglomerados: un estudio comparativo

A Review of the Most Common Partition Algorithms in Cluster Analysis: A Comparative Study


1Universidad de Santiago de Chile, Facultad de Ciencia, Departamento de Matemática y Ciencia de la Computación, Santiago, Chile. Estudiante de Ingeniería Estadística. Email: susanaleivav@gmail.com
2Universidad de Santiago de Chile, Facultad de Ciencia, Departamento de Matemática y Ciencia de la Computación, Santiago, Chile. Profesor asistente. Email: francisco.torres@usach.cl


Este estudio está enfocado en comparar diversos métodos de partición del análisis de conglomerados, usualmente conocidos como métodos no jerárquicos. En este trabajo, se realizan estudios de simulación para comparar los resultados obtenidos al implementar los algoritmos k-medias, k-medianas, PAM y Clara cuando los datos son multivariados y de tipo continuo. Adicionalmente, se efectúa un estudio de simulación con el fin de comparar algoritmos de partición para datos cualitativos, confrontando la eficiencia de los algoritmos PAM y k-modas. La eficiencia de los algoritmos se compara usando el índice de Rand ajustado y la tasa de correcta clasificación. Finalmente, se aplican los algoritmos a bases de datos reales, las cuales poseen clases predefinidas.

Palabras clave: algoritmos de conglomerados, medida de similaridad, simulación.


This study is oriented to compare several partition methods in the context of cluster analysis, which are also called non hierarchical methods. In this work, a simulation study is performed to compare the results obtained from the implementation of the algorithms k-means, k-medians, PAM and CLARA when continuous multivariate information is available. Additionally, a study of simulation is presented to compare partition algorithms qualitative information, comparing the efficiency of the PAM and k-modes algorithms. The efficiency of the algorithms is compared using the Adjusted Rand Index and the correct classification rate. Finally, the algorithms are applied to real databases with predefined classes.

Key words: Clustering algorithm, Similarity measure, Simulation.

[Recibido en null de 2010. Aceptado en octubre de 2010]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

    AUTHOR  = {Leiva-Valdebenito, Susana A. and Torres-Avilés, Francisco J.},
    TITLE   = {{Una revisión de los algoritmos de partición más comunes en el análisis de conglomerados: un estudio comparativo}},
    JOURNAL = {Revista Colombiana de Estadística},
    YEAR    = {2010},
    volume  = {33},
    number  = {2},
    pages   = {321-339}

