酷应用

一文讲解特征工程！经典外文PPT及中文解析

百家作者：数据分析 2020-09-10 15:20:25

作者：知乎@马东什么? 香港大学

原文链接：https://zhuanlan.zhihu.com/p/85242628

“More data beats clever algorithms, but better data beats more data.”——名人名言哈哈哈哈，更多的数据打败聪明的算法，更好的数据打败更多的数据。

特征工程

类别特征

Onehot编码

一个简单的例子

哈希编码

对固定长度的数组执行“ OneHot编码”。（不同的hash编码通过不同的算法将类别映射为一个唯一的值，例如对于类别A通过hash编码可能映射为qwe456这种6维序列，然后我们再去做onehot展开）
避免极为稀疏的数据
可能会引起碰撞（例如10000个类别用2位的hash编码，很容易出现不同类别最终映射的hash值是相同的，此现象称为碰撞—collisions）
可以重复使用不同的哈希函数和袋结果，以降低准确性（意思应该是用不同的hash算法得到不同的编码值然后concat到一起尽量避免碰撞的发生）
碰撞collisions通常会降低结果，但可能会改善结果（增强泛化性能）。
优雅地处理新变量（例如：新的用户代理）（新的类别重新hash然后合并即可）（关于hash编码可见facebook对于文本的处理的那篇论文，忘了叫啥了，回头补充在编码的文章里好了）

一个简单的例子

为每个类别变量赋予唯一的数字ID

一个简单的例子

计数编码（频率编码）

将类别特征替换为训练集中的计数（一般是根据训练集来进行计数，属于统计编码的一种，统计编码，就是用类别的统计特征来代替原始类别，比如类别A在训练集中出现了100次则编码为100）
对线性和非线性算法均有用
可能对异常值敏感
可以添加对数转换，可以很好地处理计数（主要是针对count编码之后特征分布不规则的问题和常规的处理不规则分布的连续特征是一样的方式）
用'1'替换新数据中没见过的类别（没见过的类别如果有n个则编码为n）
可能会产生冲突：相同的编码，不同的变量（不同类别出现次数一样）

一个简单的例子

LabelCount编码（就是对count编码进行排名）

一个简单的例子

目标编码

按目标变量的比例对分类变量进行编码（二分类或回归）（如果是多分类其实也可以编码，例如类别A对应的标签1有100个，标签2有100个，标签3有100个，则可以编码为【1/3,1/3,1/3】）
注意避免过拟合！（原始的target encoding直接对全部的训练集数据和标签进行编码，会导致得到的编码结果太过依赖与训练集）
堆叠形式：输出平均的目标的单变量模型
以交叉验证的方式进行（一般会进行交叉验证，比如划分为10折，每次对9折进行标签编码然后用得到的标签编码模型预测第10折的特征得到结果，其实就是常说的均值编码）
添加平滑以避免将变量编码设置为0。（某些类别可能只包含部分的类别会出现0值，此时会进行拉普拉斯平滑，不过对于回归则没有这种问题）
添加随机噪声以应对过拟合（我一般用交叉验证不怎么加噪声）
正确应用时：线性和非线性的最佳编码