文章详情页

python实现dbscan算法

浏览：3日期：2022-06-18 18:16:17

DBSCAN 算法是一种基于密度的空间聚类算法。该算法利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阀值。DBSCAN 算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。但是由于它直接对整个数据库进行操作且进行聚类时使用了一个全局性的表征密度的参数，因此也具有两个比较明显的弱点：

1. 当数据量增大时，要求较大的内存支持 I/0 消耗也很大;

2. 当空间聚类的密度不均匀、聚类间距离相差很大时，聚类质量较差。

DBSCAN算法的聚类过程

DBSCAN算法基于一个事实：一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为：任一满足核心对象条件的数据对象p，数据库D中所有从p密度可达的数据对象所组成的集合构成了一个完整的聚类C，且p属于C。

先上结果

python实现dbscan算法

大致流程

先根据给定的半径 r 确定中心点，也就是这类点在半径r内包含的点数量 n 大于我们的要求（n>=minPionts）然后遍历所有的中心点，将互相可通达的中心点与其包括的点分为一组全部分完组之后，没有被纳入任何一组的点就是离群点啦！

导入相关依赖

import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets求点跟点之间距离（欧氏距离）

def cuircl(pointA,pointB): distance = np.sqrt(np.sum(np.power(pointA - pointB,2))) return distance求临时簇，即确定所有的中心点，非中心点

def firstCluster(dataSets,r,include): cluster = [] m = np.shape(dataSets)[0] ungrouped = np.array([i for i in range (m)]) for i in range (m):tempCluster = []#第一位存储中心点簇tempCluster.append(i)for j in range (m): if (cuircl(dataSets[i,:],dataSets[j,:]) < r and i != j ):tempCluster.append(j)tempCluster = np.mat(np.array(tempCluster))if (np.size(tempCluster)) >= include: cluster.append(np.array(tempCluster).flatten()) #返回的是List center=[] n = np.shape(cluster)[0] for k in range (n):center.append(cluster[k][0]) #其他的就是非中心点啦 ungrouped = np.delete(ungrouped,center) #ungrouped为非中心点 return cluster,center,ungrouped

将所有中心点遍历并进行聚集

def clusterGrouped(tempcluster,centers): m = np.shape(tempcluster)[0] group = [] #对应点是否遍历过 position = np.ones(m) unvisited = [] #未遍历点 unvisited.extend(centers) #所有点均遍历完毕 for i in range (len(position)):coreNeihbor = []result = []#删除第一个#刨去自己的邻居结点，这一段就类似于深度遍历if position[i]:#将邻结点填入 coreNeihbor.extend(list(tempcluster[i][:])) position[i] = 0 temp = coreNeihbor#按照深度遍历遍历完所有可达点#遍历完所有的邻居结点 while len(coreNeihbor) > 0 :#选择当前点present = coreNeihbor[0]for j in range(len(position)): #如果没有访问过 if position[j] == 1:same = []#求所有的可达点if (present in tempcluster[j]): cluster = tempcluster[j].tolist() diff = [] for x in cluster:if x not in temp: #确保没有重复点 diff.append(x) temp.extend(diff) position[j] = 0# 删掉当前点del coreNeihbor[0]result.extend(temp) group.append(list(set(result)))i +=1 return group

核心算法完毕！

生成同心圆类型的随机数据进行测试

#生成非凸数据 factor表示内外圈距离比X,Y1 = datasets.make_circles(n_samples = 1500, factor = .4, noise = .07)#参数选择，0.1为圆半径，6为判定中心点所要求的点个数，生成分类结果tempcluster,center,ungrouped = firstCluster(X,0.1,6)group = clusterGrouped(tempcluster,center)#以下是分类后对数据进行进一步处理num = len(group)voice = list(ungrouped)Y = []for i in range (num): Y.append(X[group[i]])flat = []for i in range(num): flat.extend(group[i])diff = [x for x in voice if x not in flat]Y.append(X[diff])Y = np.mat(np.array(Y))

绘图~

color = [’red’,’blue’,’green’,’black’,’pink’,’orange’]for i in range(num): plt.scatter(Y[0,i][:,0],Y[0,i][:,1],c=color[i])plt.scatter(Y[0,-1][:,0],Y[0,-1][:,1],c = ’purple’)plt.show()

结果

紫色点就是离散点

python实现dbscan算法

到此这篇关于python实现dbscan算法的文章就介绍到这了,更多相关python dbscan算法内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

Python 编程

上一条：python 实现单一数字取对数与数列取对数下一条：python 如何对Series中的每一个数据做运算

相关文章：

1. 基于PHP做个图片防盗链2. ASP.NET MVC使用Boostrap实现产品展示、查询、排序、分页3. .NET中实现对象数据映射示例详解4. jscript与vbscript 操作XML元素属性的代码5. asp.net core 认证和授权实例详解6. 基于javaweb+jsp实现企业车辆管理系统7. XML在语音合成中的应用8. 如何使用ASP.NET Core 配置文件9. php使用正则验证密码字段的复杂强度原理详细讲解原创10. ASP.NET MVC把数据库中枚举项的数字转换成文字

排行榜

					
					Spring Session的使用示例
Java System类两个常用方法代码实例
java字符串格式化输出实例讲解
解决Android studio 3.6.1 出现Cause: unable to find valid certification path to requested target 报错的问题
JavaEE Spring MyBatis如何一步一步实现数据库查询功能
Python自动化之定位方法大杀器xpath
文件上传服务器-jupyter 中python解压及压缩方式
Spring security自定义用户认证流程详解
Ubuntu指令大全系列四——文件权限管理
Python环境使用OpenCV检测人脸实现教程
如何使用ASP.NET Core 配置文件
				

热门标签