推荐 :使用高斯混合模型,让聚类更好更精确(附数据&代码&学习资源)
本文约3500字,建议阅读10+分钟。
本文简单介绍聚类的基础知识,包括快速回顾K-means算法,然后深入研究高斯混合模型的概念,并用Python实现。
概述
高斯混合模型是一种强大的聚类算法
了解高斯混合模型的工作原理以及如何在Python中实现它们
我们还将讨论K-means聚类算法,看看高斯混合模型是如何改进它的
简介
应用机器学习相关课程链接:
https://courses.analyticsvidhya.com/courses/applied-machine-learning-beginner-to-professional?utm_source=blog&utm_medium=gaussian-mixture-models-clustering
目录
一、聚类简介
二、K-means聚类简介
三、K-means聚类缺点
四、高斯混合模型简介
五、高斯分布
六、什么是期望最大化
七、高斯混合模型中的期望最大化
八、用Python实现高斯混合聚类模型
一、聚类简介
高收入高消费
高收入低消费
低收入低消费
低收入高消费
二、K-means聚类简介
最全面的K-mans指南,你永远都需要:
https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/?utm_source=blog&utm_medium=gaussian-mixture-models-clustering
三、K-means聚类缺点
四、高斯混合模型简介
五、高斯分布
六、什么是期望最大化
E-步骤:在这个步骤中,利用可用的数据来估算(猜测)潜在变量的值。
M-步骤:根据E步骤中生成的估计值,使用完整的数据更新参数。
七、高斯模型中的期望最大化
八、用Python实现高斯混合模型
相关链接:
https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2019/10/Clustering_gmm.csv
import pandas as pd
data = pd.read_csv('Clustering_gmm.csv')
plt.figure(figsize=(7,7))
plt.scatter(data["Weight"],data["Height"])
plt.xlabel('Weight')
plt.ylabel('Height')
plt.title('Data Distribution')
plt.show()
#training k-means model
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=4)
kmeans.fit(data)
#predictions from kmeans
pred = kmeans.predict(data)
frame = pd.DataFrame(data)
frame['cluster'] = pred
frame.columns = ['Weight', 'Height', 'cluster']
#plotting results
color=['blue','green','cyan', 'black']
for k in range(0,4):
data = frame[frame["cluster"]==k]
plt.scatter(data["Weight"],data["Height"],c=color[k])
plt.show()
import pandas as pd
data = pd.read_csv('Clustering_gmm.csv')
# training gaussian mixture model
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components=4)
gmm.fit(data)
#predictions from gmm
labels = gmm.predict(data)
frame = pd.DataFrame(data)
frame['cluster'] = labels
frame.columns = ['Weight', 'Height', 'cluster']
color=['blue','green','cyan', 'black']
for k in range(0,4):
data = frame[frame["cluster"]==k]
plt.scatter(data["Weight"],data["Height"],c=color[k])
plt.show()
尾注
原文标题:
Build Better and Accurate Clusters with Gaussian Mixture Models
原文链接:
https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/
作者简介:张玲,在岗数据分析师,计算机硕士毕业。从事数据工作,需要重塑自我的勇气,也需要终生学习的毅力。但我依旧热爱它的严谨,痴迷它的艺术。数据海洋一望无尽,数据工作充满挑战。感谢数据派THU提供如此专业的平台,希望在这里能和最专业的你们共同进步!
END
转自:数据派THU 公众号;
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
合作请加QQ:365242293
数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 准确把握守正创新的辩证关系 7944249
- 2 中国黄金原董事长家搜出大量黄金 7965270
- 3 空调英文不会男生盯着考场空调看 7840397
- 4 消费品以旧换新“加速度” 7720443
- 5 被铁路售票员的手速惊到了 7664677
- 6 网红赤木刚宪爆改赵露思 7511750
- 7 县委原书记大搞“刷白墙”被通报 7441849
- 8 山姆代购在厕所分装蛋糕 7383208
- 9 马龙刘诗雯穿正装打混双 7299132
- 10 刘强东提前发年终奖 7161408