Blog

07 febrero, 2025

Blog

DBSCAN – Scikit Learn

07 febrero, 2025

Introducción a DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo de agrupamiento que ha demostrado ser altamente eficaz para detectar clusters de forma arbitraria en grandes conjuntos de datos. A diferencia de métodos como K-means, que requieren que el número de grupos se especifique de antemano, DBSCAN determina el número de clusters a partir de la distribución de los datos. Esta propiedad lo convierte en una herramienta valiosa en el análisis de datos, ya que puede identificar no solo clusters densos, sino también ruido y outliers.

En este artículo, exploraremos cómo implementar el algoritmo DBSCAN utilizando la popular biblioteca Scikit-Learn en Python. También discutiremos su funcionamiento, ventajas, desventajas y algunas aplicaciones prácticas.

¿Cómo Funciona DBSCAN?

DBSCAN opera en base a dos parámetros principales: eps y minsamples.

eps: Este parámetro define la distancia máxima entre dos puntos para que se consideren como parte del mismo cluster. Es una especie de radio alrededor de un punto que determina su vecindad.

minsamples: Este es el número mínimo de puntos (incluyendo el punto central) que deben encontrarse dentro del radio eps para que se considere que un punto es un «punto central» de un cluster.

La clasificación de los puntos dentro del espacio de características en DBSCAN se hace en tres categorías:

Puntos centrales: Son aquellos que tienen al menos minsamples vecinos dentro de la distancia eps.

Puntos de borde: Son aquellos que están dentro del rango de eps de un punto central, pero no tienen suficientes vecinos (menos de minsamples).

Ruido: Son puntos que no pertenecen ni a puntos centrales ni a puntos de borde, es decir, son considerados outliers.

El algoritmo comienza con un punto aleatorio y explora su vecindad. Si el punto es un punto central, se forman un cluster a partir de él, y se repite el proceso. Si no es un punto central, se clasifica como ruido o borde, dependiendo de su relación con otros puntos. Este proceso continúa hasta que se han visitado todos los puntos.

Ventajas de DBSCAN

No requiere especificar el número de clusters: A diferencia de K-means, donde debes definir el número de clusters a priori, DBSCAN determina automáticamente el número de grupos basándose en la densidad de los datos.

identificación de ruido: el algoritmo no solo identifica clusters densos, sino que también clasifica claramente los puntos que son considerados ruido o outliers.

Forma arbitraria de clusters: DBSCAN puede identificar clusters de diversas formas, no necesariamente esféricas, lo que lo convierte en un algoritmo versátil para diferentes tipos de datos.

Robustez a outliers: La capacidad del algoritmo para identificar y separar el ruido da como resultado clusters más limpios y significativos.

Desventajas de DBSCAN

Sensibilidad a la elección de parámetros: La calidad de los clusters generados por DBSCAN depende en gran medida de la elección de los parámetros eps y minsamples. Elegir valores incorrectos puede resultar en clusters poco representativos.

Dificultad con clusters de diferentes densidades: DBSCAN puede fallar al identificar clusters que tienen densidades muy diferentes, ya que se basa en un solo conjunto de parámetros.

Curvas computacionales: A medida que el tamaño de los datos crece, el tiempo de cómputo también puede aumentar considerablemente debido a las distancias que deben calcularse.

limitaciones en dimensiones altas: En espacios de alta dimensión, la noción de densidad se puede volver menos significativa debido a la «malacción de la maldición de la dimensionalidad».

Implementación de DBSCAN en Scikit-Learn

Ahora pasemos a implementar DBSCAN utilizando Scikit-Learn. Para esto, necesitamos primero instalar la biblioteca. Si aún no la tienes, puedes instalarla usando pip:

bash pip install scikit-learn

A continuación, veremos un ejemplo básico de cómo aplicar DBSCAN a un conjunto de datos que generaremos aleatoriamente.

python

import numpy as np

import matplotlib.pyplot as plt

from sklearn.cluster import DBSCAN

from sklearn.datasets import makemoons



Generando un conjunto de datos de ejemplo


X,  = makemoons(nsamples=300, noise=0.05, randomstate=42)



Aplicando DBSCAN


dbscan = DBSCAN(eps=0.2, minsamples=5)

clusters = dbscan.fitpredict(X)



Visualizando los resultados


plt.figure(figsize=(10,6))

plt.scatter(X[:, 0], X[:, 1], c=clusters, cmap='viridis', marker='o', edgecolor='black', s=50)

plt.title('DBSCAN Clustering')

plt.xlabel('X-axis')

plt.ylabel('Y-axis')

plt.show()

En este código, primero generamos un conjunto de datos utilizando makemoons, que produce un conjunto de datos en forma de dos lunas. Luego, aplicamos el algoritmo DBSCAN a estos datos y visualizamos los clusters resultantes.

Parámetros de ajuste y su impacto

Ajustar los parámetros eps y minsamples es crucial. Aquí hay algunos consejos sobre cómo seleccionar estos parámetros:

eps: Un buen comienzo es probar varios valores para entender cómo afectan la formación de clusters. Usualmente, se puede graficar el gráfico de distancias k-ésimas (entendiendo qué tan bien se comporta el algoritmo) para encontrar un valor óptimo de eps.

min_samples: Este valor puede estar relacionado con el tamaño deseado de los clusters. En conjuntos de datos donde se espera que los clusters sean pequeños, un valor más bajo puede ser apropiado; mientras que para conjuntos de datos más grandes, podrías querer aumentar este valor.

Aplicaciones Prácticas de DBSCAN

DBSCAN ha sido utilizado en una variedad de aplicaciones prácticas:

Análisis geoespacial: En la detección de áreas densas en un mapa, como zonas de crimen o áreas de concentración de clientes.

reconocimiento de patrones: Para identificar patrones inusuales en conjuntos de datos, como detección de fraudes.

Ciencia de datos: A menudo usado en preprocesamiento, donde se desea eliminar outliers antes de aplicar modelos de aprendizaje automático.

Visión por computadora: En la agrupación de características y detección de objetos, DBSCAN permite identificar formas y objetos en imágenes.

Conclusión

DBSCAN es un algoritmo poderoso para agrupamiento de datos que ofrece funcionalidades que muchos otros métodos no pueden proporcionar, como la detección de ruido y la capacidad de identificar clusters de forma arbitraria. Si bien tiene sus limitaciones, su implementación en Scikit-Learn lo hace accesible y fácil de usar para aquellos interesados en la minería de datos y el análisis de patrones.

Al dominar DBSCAN y otros métodos de agrupamiento, los analistas de datos pueden extraer información significativa de grandes conjuntos de datos y resolver problemas complejos en una variedad de dominios.La combinación de DBSCAN con otras técnicas y algoritmos puede llevar a descubrimientos aún más profundos en el análisis de datos.

adminIA4b

DBSCAN – Scikit Learn

Introducción a DBSCAN

¿Cómo Funciona DBSCAN?

Ventajas de DBSCAN

Desventajas de DBSCAN

Implementación de DBSCAN en Scikit-Learn

Generando un conjunto de datos de ejemplo

Aplicando DBSCAN

Visualizando los resultados

Parámetros de ajuste y su impacto

Aplicaciones Prácticas de DBSCAN

Conclusión

Últimas noticias

Inteligencia Artificial en empresas: automatización, análisis de datos, personalización y ética

La Inteligencia Artificial impulsa eficiencia y rentabilidad en empresas: ventajas y estrategias

Inteligencia Artificial en empresas 2026: Claves para aumentar eficiencia, reducir costos e innovar