Blog

12 diciembre, 2024

Blog

Algoritmo Agrupamiento Jerárquico – Práctica

12 diciembre, 2024

El agrupamiento jerárquico es una técnica basic en el análisis de datos que permite organizar un conjunto de elementos en una jerarquía o árbol de decisiones basados en la similitud entre ellos. Esta técnica es ampliamente utilizada en diversas áreas, como la biología, el aprendizaje automático, la minería de datos y el análisis de imágenes. A continuación, exploraremos en profundidad el algoritmo de agrupamiento jerárquico, su funcionamiento, aplicaciones y una guía práctica sobre cómo implementarlo.

¿Qué es el Agrupamiento Jerárquico?

El agrupamiento jerárquico es un enfoque de agrupamiento que crea una jerarquía de clusters (o grupos) organizados en una estructura en forma de árbol llamada dendrograma.Esta estructura jerárquica permite observar cómo se agrupan los datos y cómo se relacionan entre sí en diferentes niveles de similitud.

Existen dos enfoques principales en el agrupamiento jerárquico:

Agrupamiento aglomerativo: comenzamos cada dato como un cluster individual y, de manera iterativa, fusionamos los clusters más cercanos hasta que todos los datos forman un único cluster.

Agrupamiento divisivo: comienza con todos los datos en un único cluster y, de forma iterativa, divide los clusters hasta que cada dato representa su propio cluster.

El enfoque más comúnmente utilizado es el agrupamiento aglomerativo debido a su sencillez y eficacia.

Medición de Distancias en Agrupamiento Jerárquico

La elección de la medida de distancia es crucial para el rendimiento del algoritmo.Existen varias métricas que pueden utilizarse, entre ellas:

Distancia Euclidiana: mide la distancia lineal entre dos puntos en el espacio.

Distancia Manhattan: suma las diferencias absolutas de las coordenadas de dos puntos.

Distancia de Minkowski: generaliza las medidas anteriores.

Distancia de coseno: mide la similitud de la dirección entre dos vectores, sin tener en cuenta su magnitud.

La elección de la medida dependerá del contexto de los datos y de las relaciones que se quieran capturar.

Estrategias de Enlace

Además de la medida de distancia, otra consideración importante es cómo se combinan los clusters. Existen diversas estrategias:

Enlace simple: la distancia entre dos clusters se define como la distancia mínima entre los puntos de ambos clusters.

Enlace completo: se mide la distancia máxima entre los puntos de dos clusters.

Enlace promedio: se calcula como la media de las distancias entre todos los puntos en los dos clusters.

Enlace ward: minimiza la varianza total dentro de los clusters.

La elección del método de enlace puede afectar significativamente la estructura de los clusters resultantes.

Implementación Práctica del Algoritmo

Para ilustrar la práctica del agrupamiento jerárquico, consideraremos el uso de Python y sus bibliotecas más comunes, como scikit-learn y scipy, para llevar a cabo esta tarea.

Paso 1: Preparación de los Datos

Primero, debemos tener un conjunto de datos adecuado. Para este ejemplo, utilizaremos un conjunto de datos de puntos en un espacio bidimensional. Podemos generarlo utilizando numpy:

python

import numpy as np

import matplotlib.pyplot as plt



generar datos aleatorios


np.random.seed(0)

data = np.random.rand(10, 2)



Visualizar los datos


plt.scatter(data[:, 0], data[:, 1])

plt.title("Datos Aleatorios")

plt.show()

Paso 2: Cálculo de la matriz de Distancia

Utilizamos scipy para calcular la matriz de distancia. Aquí elegimos la distancia Euclidiana:

python

from scipy.spatial.distance import pdist, squareform



Calcular la matriz de distancia


dist_matrix = squareform(pdist(data, metric='euclidean'))

Paso 3: Agrupamiento jerárquico

Ahora, utilizando el algoritmo de agrupamiento jerárquico aglomerativo, ejecutamos el agrupamiento:

python

from scipy.cluster.hierarchy import linkage, dendrogram



Aplicar el método de agrupamiento jerárquico


Z = linkage(data, method='ward')



Crear el dendrograma


plt.figure(figsize=(10, 5))

dendrogram(Z)

plt.title("Dendrograma del Agrupamiento Jerárquico")

plt.xlabel("Índice de muestra")

plt.ylabel("Distancia")

plt.show()

Paso 4: Corte del Dendrograma

El siguiente paso es determinar cuántos clusters deseamos. Podemos cortar el dendrograma a una altura específica:

python

from scipy.cluster.hierarchy import fcluster



Cortar el dendrograma en una altura que nos dé 3 clusters


clusters = fcluster(Z, t=0.5, criterion='distance')



visualizar los clusters


plt.scatter(data[:, 0], data[:, 1], c=clusters, cmap='prism')

plt.title("clusters Resultantes")

plt.show()

Aplicaciones del Agrupamiento Jerárquico

El agrupamiento jerárquico tiene aplicaciones en diversos campos:

Biología: para la clasificación de especies basándose en características genéticas o fenotípicas.

Marketing: segmentación de clientes basándose en patrones de compra.

Imágenes: agrupamiento de píxeles similares en la segmentación de imágenes.

Análisis de Datos Geoespaciales: clasificación de zonas geográficas similares.

Ventajas y Desventajas

El agrupamiento jerárquico tiene sus ventajas y desventajas.

Ventajas:

Es fácil de interpretar y visualizar a través de dendrogramas.

No requiere especificar el número de clusters a priori (en el caso de agrupamiento aglomerativo).

Puede proporcionar una estructura jerárquica muy útil.

Desventajas:

Es computacionalmente costoso para grandes conjuntos de datos.

Puede ser sensible al ruido y a los outliers.

No hay un enfoque único para la elección de la medida de distancia o el método de enlace.

Conclusiones

El algoritmo de agrupamiento jerárquico representa una potente herramienta para la agrupación y el análisis de datos. Su facilidad de interpretación y visualización lo convierten en una opción popular en muchas áreas. A pesar de sus limitaciones, el entendimiento y la práctica de este método es fundamental para cualquier analista de datos que desee explorar la estructura subyacente de un conjunto de datos. Al implementar este algoritmo en Python, se puede ver cómo los diferentes parámetros y enfoques afectan los resultados, lo que permite una mejor comprensión de la naturaleza del agrupamiento y la similitud entre los datos.

adminIA4b

Algoritmo Agrupamiento Jerárquico – Práctica

¿Qué es el Agrupamiento Jerárquico?

Medición de Distancias en Agrupamiento Jerárquico

Estrategias de Enlace

Implementación Práctica del Algoritmo

Paso 1: Preparación de los Datos

generar datos aleatorios

Visualizar los datos

Paso 2: Cálculo de la matriz de Distancia

Calcular la matriz de distancia

Paso 3: Agrupamiento jerárquico

Aplicar el método de agrupamiento jerárquico

Crear el dendrograma

Paso 4: Corte del Dendrograma

Cortar el dendrograma en una altura que nos dé 3 clusters

visualizar los clusters

Aplicaciones del Agrupamiento Jerárquico

Ventajas y Desventajas

Ventajas:

Desventajas:

Conclusiones

Últimas noticias

Inteligencia Artificial en empresas: 5 claves para impulsar eficiencia, reducir costos y vender más

IA que transforma empresas: automatiza procesos, enamora clientes e impulsa la innovación

IA en acción: automatiza procesos y transforma tu empresa hoy mismo