当前位置: 首页 > 编程日记 > 正文

全面解析 Kmeans 聚类算法(Python)

40cc2d247d834cecc4273b7cb14d6c26.gif

作者 | 泳鱼

来源 | 算法进阶

一、聚类简介

Clustering (聚类)是常见的unsupervised learning (无监督学习)方法,简单地说就是把相似的数据样本分到一组(簇),聚类的过程,我们并不清楚某一类是什么(通常无标签信息),需要实现的目标只是把相似的样本聚到一起,即只是利用样本数据本身的分布规律。

聚类算法可以大致分为传统聚类算法及深度聚类算法

  • 传统聚类算法主要是根据原特征+基于划分/密度/层次等方法。

501a6ab342e0c3990f5be8d98c9977f5.png
  • 深度聚类方法主要是根据表征学习后的特征+传统聚类算法。7947c7ce56b011703bd137daf2175679.png

二、kmeans聚类原理

kmeans聚类可以说是聚类算法中最为常见的,它是基于划分方法聚类的,原理是先初始化k个簇类中心,基于计算样本与中心点的距离归纳各簇类下的所属样本,迭代实现样本与其归属的簇类中心的距离为最小的目标(如下目标函数)。51054bf3d840184fff45a0b50e037966.png

其优化算法步骤为:

1.随机选择 k 个样本作为初始簇类中心(k为超参,代表簇类的个数。可以凭先验知识、验证法确定取值);

2.针对数据集中每个样本 计算它到 k 个簇类中心的距离,并将其归属到距离最小的簇类中心所对应的类中;

3.针对每个簇类,重新计算它的簇类中心位置;

4.重复迭代上面 2 、3 两步操作,直到达到某个中止条件(如迭代次数,簇类中心位置不变等)。

8a5610300b6dbaf8d2d3585810351535.png

.... 完整代码可见:https://github.com/aialgorithm/Blog 或文末阅读原文#kmeans算法是初始化随机k个中心点
random.seed(1)
center = [[self.data[i][r] for i in range(1, len((self.data)))]  for r in random.sample(range(len(self.data)), k)]#最大迭代次数iters
for i in range(self.iters):class_dict = self.count_distance() #计算距离,比较个样本到各个中心的的出最小值,并划分到相应的类self.locate_center(class_dict) # 重新计算中心点#print(self.data_dict)print("----------------迭代%d次----------------"%i)print(self.center_dict)  #聚类结果{k:{{center:[]},{distance:{item:0.0},{classify:[]}}}}if sorted(self.center) == sorted(self.new_center):breakelse:self.center = self.new_center
...

可见,Kmeans 聚类的迭代算法实际上是 EM 算法,EM 算法解决的是在概率模型中含有无法观测的隐含变量情况下的参数估计问题。

在 Kmeans 中的隐变量是每个类别所属类别。Kmeans 算法迭代步骤中的 每次确认中心点以后重新进行标记 对应 EM 算法中的 E 步 求当前参数条件下的 Expectation 。而 根据标记重新求中心点 对应 EM 算法中的 M 步 求似然函数最大化时(损失函数最小时)对应的参数 。EM 算法的缺点是容易陷入局部极小值,这也是 Kmeans 有时会得到局部最优解的原因。

三、选择距离度量

kmeans 算法是基于距离相似度计算的,以确定各样本所属的最近中心点,常用距离度量有曼哈顿距离和欧式距离,具体可以见文章【全面归纳距离和相似度方法(7种)】

  • 曼哈顿距离 公式:

1756d9c3610bca873ac540854b9cfe9f.png
  • 欧几里得距离 公式:

d4f3bb6e0b6b33b5043fb3aec9229f85.png曼哈顿、欧几里得距离的计算方法很简单,就是计算两样本(x,y)的各个特征i间的总距离。如下图(二维特征的情况)蓝线的距离即是曼哈顿距离(想象你在曼哈顿要从一个十字路口开车到另外一个十字路口实际驾驶距离就是这个“曼哈顿距离”,也称为城市街区距离),红线为欧几里得距离:

93f674ff32f35d30c7ef63de1b996ebc.png

四、k 值的确定

kmeans划分k个簇,不同k的情况,算法的效果可能差异就很大。K值的确定常用:先验法、手肘法等方法。

  • 先验法

先验比较简单,就是凭借着业务知识确定k的取值。比如对于iris花数据集,我们大概知道有三种类别,可以按照k=3做聚类验证。从下图可看出,对比聚类预测与实际的iris种类是比较一致的。c99f8dace7a0bba855facc8db2a85a09.png4a2a713be11c0709378298a40a50aae3.png

  • 手肘法

可以知道k值越大,划分的簇群越多,对应的各个点到簇中心的距离的平方的和(类内距离,WSS)越低,我们通过确定WSS随着K的增加而减少的曲线拐点,作为K的取值。796b12261f5b9e61d6a4af05ef9b3f3c.png

手肘法的缺点在于需要人为判断不够自动化,还有些其他方法如:

  • 使用 Gap statistic 方法,确定k值。

  • 验证不同K值的平均轮廓系数,越趋近1聚类效果越好。

  • 验证不同K值的类内距离/类间距离,值越小越好。

  • ISODATA算法:它是在k-均值算法的基础上,增加对聚类结果的“合并”和“分裂”两个操作,确定最终的聚类结果。从而不用人为指定k值。

五、Kmeans的缺陷

5.1 初始化中心点的问题

kmeans是采用随机初始化中心点,而不同初始化的中心点对于算法结果的影响比较大。所以,针对这点更新出了Kmeans++算法,其初始化的思路是:各个簇类中心应该互相离得越远越好。基于各点到已有中心点的距离分量,依次随机选取到k个元素作为中心点。离已确定的簇中心点的距离越远,越有可能(可能性正比与距离的平方)被选择作为另一个簇的中心点。如下代码。

# Kmeans ++ 算法基于距离概率选择k个中心点# 1.随机选择一个点center = []center.append(random.choice(range(len(self.data[0]))))# 2.根据距离的概率选择其他中心点for i in range(self.k - 1):weights = [self.distance_closest(self.data[0][x], center) for x in range(len(self.data[0])) if x not in center]dp = [x for x in range(len(self.data[0])) if x not in center]total = sum(weights)#基于距离设定权重weights = [weight/total for weight in weights]num = random.random()x = -1i = 0while i < num :x += 1i += weights[x]center.append(dp[x])center = [self.data_dict[self.data[0][center[k]]] for k in range(len(center))]

5.2 核Kmeans

基于欧式距离的 Kmeans 假设了了各个数据簇的数据具有一样的的先验概率并呈现球形分布,但这种分布在实际生活中并不常见。面对非凸的数据分布形状时我们可以引入核函数来优化,这时算法又称为核 Kmeans 算法,是核聚类方法的一种。核聚类方法的主要思想是通过一个非线性映射,将输入空间中的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类。非线性映射增加了数据点线性可分的概率,从而在经典的聚类算法失效的情况下,通过引入核函数可以达到更为准确的聚类结果。

5.3 特征类型

kmeans是面向数值型的特征,对于类别特征需要进行onehot或其他编码方法。此外还有 K-Modes 、K-Prototypes 算法可以用于混合类型数据的聚类,对于数值特征簇类中心我们取得是各特征均值,而类别型特征中心取得是众数,计算距离采用海明距离,一致为0否则为1。

5.4 特征的权重

聚类是基于特征间距离计算,计算距离时,需要关注到特征量纲差异问题,量纲越大意味这个特征权重越大。假设各样本有年龄、工资两个特征变量,如计算欧氏距离的时候,(年龄1-年龄2)² 的值要远小于(工资1-工资2)² ,这意味着在不使用特征缩放的情况下,距离会被工资变量(大的数值)主导。因此,我们需要使用特征缩放来将全部的数值统一到一个量级上来解决此问题。通常的解决方法可以对数据进行“标准化”或“归一化”,对所有数值特征统一到标准的范围如0~1。7ec712fe26de60b42fd01a8b99268501.png

归一化后的特征是统一权重,有时我们需要针对不同特征赋予更大的权重。假设我们希望feature1的权重为1,feature2的权重为2,则进行0~1归一化之后,在进行类似欧几里得距离(未开根号)计算的时候,402c5929b6e708d5fb66b33fb8019ec2.png我们将feature2的值乘根号2就可以了,这样feature2对应的上式的计算结果会增大2倍,从而简单快速的实现权重的赋权。如果使用的是曼哈顿距离,特征直接乘以2 权重也就是2 。

如果类别特征进行embedding之后的特征加权,比如embedding为256维,则我们对embedding的结果进行0~1归一化之后,每个embedding维度都乘以 根号1/256,从而将这个类别全部的距离计算贡献规约为1,避免embedding size太大使得kmeans的聚类结果非常依赖于embedding这个本质上是单一类别维度的特征。

5.5 特征的选择

kmeans本质上只是根据样本特征间的距离(样本分布)确定所属的簇类。而不同特征的情况,就会明显影响聚类的结果。当使用没有代表性的特征时,结果可能就和预期大相径庭!比如,想对银行客户质量进行聚类分级:交易次数、存款额度就是重要的特征,而如客户性别、年龄情况可能就是噪音,使用了性别、年龄特征得到的是性别、年龄相仿的客户!

对于无监督聚类的特征选择:

  • 一方面可以结合业务含义,选择贴近业务场景的特征。

  • 另一方面,可以结合缺失率、相似度、PCA等常用的特征选择(降维)方法可以去除噪音、减少计算量以及避免维度爆炸。再者,如果任务有标签信息,结合特征对标签的特征重要性也是种方法(如xgboost的特征重要性,特征的IV值。)

  • 最后,也可以通过神经网络的特征表示(也就深度聚类的思想。后面在做专题介绍),如可以使用word2vec,将高维的词向量空间以低维的分布式向量表示。

参考文献: 

1、https://www.bilibili.com/video/BV1H3411t7Vk?spm_id_from=333.999.0.0 

2、https://zhuanlan.zhihu.com/p/407343831 

3、https://zhuanlan.zhihu.com/p/78798251

d3725c2d46142d340dc123716f4e4c74.gif

d414c40a9e5b4fe57b10389ec56acc31.png

技术

用python制作酷炫的可视化大屏

资讯

商汤科技上市,开启AI新篇章

技术

2021年有用的数据清洗python库

资讯

这个AI模型火上GitHub热榜

696a91e4890e6a6aba67a4170c3e622a.png

分享

2f461241ecf0d89990caf2d60f311570.png

点收藏

eb7c7c8e3620003ec92a9262f85bd5fa.png

点点赞

f62c307843e0f0acdaf12e63d13d3a72.png

点在看

相关文章:

.htaccess的重写规则

.htaccess基本语法和应用 .htaccess是Apache服务器的一个非常强大的分布式配置文件。正确的理解和使用.htaccess文件&#xff0c;可以帮助我们优化自己的服务器或者虚拟主机。 如何启用htaccess 以windows为例&#xff0c;进入apache/conf目录&#xff0c;找到httpd.conf文件&a…

amaze ui各个模块简单说明

amaze ui各个模块简单说明 导航添加依据 http://amazeui.org/css/ 下面内容属学习笔记&#xff0c;如有理解偏差和错误请留言相告&#xff0c;感谢&#xff01;* &#xff08;官网这块写的很详细&#xff09; 一、基本样式 1.统一样式 说明了为什么使用Normalize&#xff0c;而…

由浅入深剖析.htaccess

1、.htaccess文件使用前提.htaccess的主要作用就是实现url改写&#xff0c;也就是当浏览器通过url访问到服务器某个文件夹时&#xff0c;作为主人&#xff0c;我们可以来接待这个url&#xff0c;具体地怎样接待它&#xff0c;就是此文件的作用。所有的访问都是通过URL实现&…

分享几个 Pyecharts 技巧,助你画出更直观/炫酷的图表

作者 | 俊欣来源 | 关于数据分析与可视化想必大家应该也已经看到很多关于数据分析的内容了&#xff0c;今天小编就为大家来分享一下国产可视化库pyecharts在绘制图表时一些的技巧&#xff0c;帮助读者画出更加酷炫以及可读性更高的图&#xff0c;当然在这之前呢&#xff0c;我们…

虚拟化--006 VCAC的sso配置成功

转载于:https://blog.51cto.com/williamliuwen/1686492

ionic app 开发和生产环境的配置

前言 像 Angular2 一样&#xff0c;希望 ionic 可以提供 2 个文件 ( environment.dev.ts 和 environment.prod.ts )&#xff0c;其中包含与开发和生产环境相对应的不同值的变量。在构建过程中&#xff0c;要在应用程序中绑定适当的文件。 实现步骤 在 src/config 中&#xff0c…

Android Properties 存储

1.初始化 1 private static void initProperties(){2 File logFile new File(Constants.PROGRESS_PROPERTIES);3 props new Properties();4 if(!logFile.exists()){5 //创建并初始化配置文件6 FileUtils.createFolder(Const…

php函数serialize()与unserialize()

php函数serialize()与unserialize()说明及案例。想要将已序列化的字符串变回 PHP 的值&#xff0c;可使用unserialize()。serialize()可处理除了resource之外的任何类型。甚至可以serialize()那些包含了指向其自身引用的数组。你正serialize()的数组&#xff0f;对象中的引用也…

2500 字全方面解读 Python 的格式化输出

作者 | 欣一来源 | Python爱好者集中营今天小编来和大家聊聊Python当中的格式化输出&#xff0c;希望会对大家所有帮助%占位符的使用我们先来看一下下面的这个例子&#xff0c;country_ "France" currency_ "Euro"print("%s is the currency of %s&…

python GUI编程( 二 ) (基于PyQt5)

第二节 本节介绍添加窗口图标&#xff0c;在窗口内添加按钮&#xff0c;在窗口内添加提示框。 导入模块&#xff1a; from PyQt5.QWidgets import QWidget,QPushButton,QApplication from PyQt5.QtGui import QIcon,QFont from PyQt5.QtCore import QCoreApplication import sy…

Linux+Apache2+openssl实现https验证

首先安装SSL&#xff0c;再编译安装APACHE&#xff0c;再配置证书即可 1.下载apache和openssl网址&#xff1a;http://www.apache.org http://www.openssl.org2.解压#tar zxvf httpd-2.0.54.tar.gz#tar zxvf openssl-0.9.7g.tar.gz3.编译安装openssl,这个软件主要是用来生…

践行科技向善,腾讯Light 把光引向厦门

作者 | 贾凯强出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;凛冬虽至&#xff0c;但沿着东南海域一路向南&#xff0c;总有寒风吹不灭的绿意&#xff0c;也有四季不败落的花香。今年的冬天厦门始终环绕着勃勃生机&#xff0c;也有无数的追光者来到了这里。因为关注…

【每天一点点】

>>>html 使用使用<a href"URL">ba bla bla</a>定义资源位置&#xff0c;使用<a href"#name"></a>跳转到name锚所在的位置&#xff1b;>>>eclipse的注释快捷键 方法一&#xff1a;使用Ctrl/快捷键&#xff0c;使…

模式的秘密-观察者模式(四)

区别对待观察者场景问题 两点需求&#xff1a; 第一&#xff1a;黄明女朋友只想接收下雨的天气预报。 第二&#xff1a;黄明老妈&#xff0c;想接收下雨或者下雪的天气预报。 解决思路&#xff1a; 情况之一&#xff1a; 如果天气晴天&#xff0c;按照黄明女朋友需要下雨添加&a…

PHP Webservice的发布与调用

PHP Webservice的发布与调用1. 环境配置 配置php.ini&#xff0c;把php_soap.dll前面的分号去掉&#xff0c;不然会报错 class soapserver not found重启apache后通过phpinfo()查看 这样是表示环境已经支持soap的webservice了&#xff0c;后面的事情就是写代码了。2. webserv…

全球首家!苹果市值达 3 万亿美元,创历史新高

作者 | 苏宓出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;成立于 1976 年的苹果公司&#xff0c;耗时 44 年&#xff0c;终于在 2018 年首次达到 1 万亿美元的市值。自此之后&#xff0c;苹果的发展仿佛安装了“高速马达”&#xff0c;短短两年后的 2020 年 8 月…

Add Digits

题干就是给一个非负整数&#xff0c;把各位数加起来&#xff0c;若超过一位&#xff0c;则继续把各位加起来&#xff0c;直到和是一位数。 example&#xff1a; 39->12->3 坦白说我是看了第三个提示意识到的&#xff0c;所以说要找规律&#xff0c;先要暴力列举。 int ad…

JAVA多线程之Synchronized、wait、notify实例讲解

一、Synchronized synchronized中文解释是同步&#xff0c;那么什么是同步呢&#xff0c;解释就是程序中用于控制不同线程间操作发生相对顺序的机制&#xff0c;通俗来讲就是2点&#xff0c;第一要有多线程&#xff0c;第二当多个线程同时竞争某个资源的时候会有先后顺序。在ja…

匹夫细说C#:委托的简化语法,聊聊匿名方法和闭包

0x00 前言 通过上一篇博客《匹夫细说C#&#xff1a;庖丁解牛聊委托&#xff0c;那些编译器藏的和U3D给的》的内容&#xff0c;我们实现了使用委托来构建我们自己的消息系统的过程。但是在日常的开发中&#xff0c;仍然有很多开发者因为这样或那样的原因而选择疏远委托&#xff…

20个案例详解 Pandas 当中的数据统计分析与排序

作者 | 俊欣来源 | 关于数据分析与可视化今天小编来给大家讲一下Pandas模块当中的数据统计与排序&#xff0c;说到具体的就是value_counts()方法以及sort_values()方法。value_counts()方法&#xff0c;顾名思义&#xff0c;主要是用于计算各个类别出现的次数的&#xff0c;而s…

zend studio 8安装与汉化

http://archive.eclipse.org/technology/babel/update-site/R0.8.0/helios正确操作&#xff1a;1、大家可以用这个地址作为更新源&#xff08;操作&#xff1a;菜单栏中window->property->Installation/update->update 添加这个地址&#xff0c;并打勾&#xff09; 2、…

分享一个电视节目API接口PHP调用代码

央视及各地卫视的电视节目时间表&#xff0c;包括本周及下周的电视节目内容 获取电视台分类 复制代码 获取电视频道 复制代码 获取电视节目的详情 复制代码 注意&#xff0c;该示例代码适用于 www.apishop.net网站下API 使用该产品前&#xff0c;您需要通过 https://…

用Zend Stuido 的WSDL编辑器

文件->新建->其他->Webservice->WSDL新建WSDL下一步点完成生成如下wsdlTestSoapSoap下面填写php webService 如myservice.phpNewOption:添加方法。WebService里需要提供给别人调用的方法名input &#xff1a;设置输入参数名和类型output&#xff1a;设置返回值。Ad…

坐地铁就能学会的3种非常有趣的 Python 玩法

作者 | 黄伟呢来源 | 数据分析与统计学之美本文说明为什么要学习python&#xff1f;是因为不仅很多工作需要用到python&#xff0c;同时我们可以利用python做很多好玩儿的事儿。比如说下面的3种用法&#xff1a;1.利用python给小猪佩奇换背景色&#xff1b;2.利用python将小猪佩…

asp.net input怎么获取值

前台&#xff1a; <input type"hidden" name"content" value"content"> 后台&#xff1a; Request.Form["content"].ToString(); 切记&#xff1a;name不能缺少&#xff0c;id可由可无。>如有问题&#xff0c;请联系我&…

koa2 简单了解

为什么80%的码农都做不了架构师&#xff1f;>>> 1.安装 $ nvm install 7 $ npm i koa $ node my-koa-app.js2.简介 基于ES7开发的koa2&#xff0c;和koa 1相比&#xff0c;koa2完全使用Promise并配合async来实现异步。 app.use(async (ctx, next) > {await next…

亚洲最大的元宇宙平台,体验在豪宅里开party

整理 | 禾木木 出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 想象一下&#xff0c;你刚刚得到了你愿望清单上一直想拥有的生活方式&#xff0c;电视、可提高您生活质量的家用电器以及最新款时尚智能手机。现在&#xff0c;如果我们告诉你可以使用这些创新产品来装…

html5知识点补充—hgroup元素的使用

使用hgroup元素组合标题 使用新的HTML5元素hgroup&#xff0c;可以为header元素添加更多的信息。 这个元素用来对多个相关联的h1~h6标题进行分组。如果你的网站有副标题&#xff0c;可以使用hgroup元素。虽然hgroup是一个有效的分组选项&#xff0c;但是它主要是用来告知文档大…

Linux下nginx支持.htaccess文件实现伪静态的方法!

在Google上搜索的资料很多人都说nginx目前不支持.htaccess文件&#xff0c;我按照nginx的规则试验了一下&#xff0c;结果发现nginx是完全支持.htaccess文件的&#xff01; 方法如下&#xff1a;1. 在需要使用.htaccess文件的目录下新建一个.htaccess文件&#xff0c;如本人的一…

查看mysql的编码格式

1.查看数据库编码格式 show variables like character_set_database; 2.查看数据表的编码格式 show create table <表名>; 3.创建数据库时指定数据库的字符集 create database <数据库名> character set utf8; 4.创建数据表时指定数据表的编码格式 create table tb…