分享 :数据挖掘的三把利器(提分三板斧)

百家 作者:数据分析 2021-04-26 09:58:26
作者:王茂霖,华中科技大学,Datawhale成员 来源:Datawhale

本文多图,建议阅读10+分钟
本文作者与你分享数据挖掘的三把利器。

内容概括


数据挖掘提分三板斧:

1. 金斧-数据清洗和特征工程
2. 银斧-模型参数调节
3. 铜斧-模型集成


公众号(ecshujufenxi)后台回复210426” 获取完整PPT下载


视频地址:https://www.bilibili.com/video/BV1MU4y1h75G


Part 1 数据清洗和特征工程



一、关于数据清洗



1.缺失值处理:


2.异常值处理:


3.数据分桶:


4.数据标准化:在不同的问题中,标准化的意义不同

  • 在回归预测中,标准化是为了让特征值有均等的权重;

  • 在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;

  • 主成分分析中,需要对数据进行标准化处理;默认指标间权重相等,不考虑指标间差异和相互影响。



数据清洗的示例:


二、关于特征工程



1.特征构造:


2.特征选择:


特征工程的示例:


Part 2 模型参数调节



一、关于建模调参


1. 理解模型


2. 性能验证


3. 模型调参


Part 3 模型集成



一、关于模型集成


1. 加权融合



2. Boosting/Bagging


3. Stacking/Blending


模型集成示例:

本文作者


王茂霖,Datawhale重要贡献成员,Datawhale&天池数据挖掘学习赛开源内容发起人,全网阅读超10w。


参赛30余次,获得BCIC-数字中国创新创业大赛亚军,全球城市计算AI挑战赛,Alibaba Cloud German AI Challenge等多项Top10。

访问下方地址:

https://tianchi.aliyun.com/specials/promotion/allcompetition

更多学习资源大家可以前往天池学习平台查看,完成从AI小白到AI新手、AI工程师和AI科学家的进阶学习。

学习地址:https://tianchi.aliyun.com/course



公众号(ecshujufenxi)后台回复210426” 获取完整PPT下载


END

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


合作请加QQ:365242293  

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接