暑期追剧学AI (5) | 降维打击!发射二向箔的正确姿势
大数据文摘作品,转载要求见文末
翻译 | 曾维新,田奥,狗小白
校对| 唱歌的蔬菜,Sophie
后期 | 郭丽
后台回复“字幕组”加入我们!
人工智能中的数学概念一网打尽!欢迎来到YouTube网红小哥Siraj的系列栏目“The Math of Intelligence”,本视频是该系列的第五集,讲解
降维——主成分分析法(PCA)。降维能帮助我们看到数据中隐藏的关系。请大家备好二向箔,马上就要向数据集发出降维打击了!
本期视频时长11分钟,来不及看视频的小伙伴,可以先拉到视频下方看文字部分。
<iframe class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7647058823529411" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=g0539nfoksx&width=370&height=208.125&auto=0" width="370" height="208.125" data-vh="208.125" data-vw="370" style="display: none; width: 370px !important; height: 208.125px !important;"></iframe>
后续系列视频大数据文摘字幕组会持续跟进,陆续汉化推出。(大数据文摘已获得Siraj本人翻译授权)
大家好 我是Siraj,今天我们来可视化一个关于饮食习惯的数据集,来看看能从中学到什么。
让我们开始吧!
现在仍有一些十分困难的科学问题,比如说,我们在宇宙间是孤单的吗?意识是什么?暗物质又是什么?
解决这样的问题,会有百万元的奖励。而这些问题也困扰了科学家近上百年。
但你们猜怎么着,我们很有可能已经有了这些问题的答案!
可问题在于,它们并不是显而易见的,而是藏在数据之中。
美国政府的前任领导人努力试图将人类的基因组序列化,并声称,耗费了好几年的时间 一大批研究人员,以及五千万美元,只是为了找到与囊性纤维化相关的基因。
但同样的工作,现在一个好的研究生只需要几天的时间便能完成,正在看视频的你!对!说的就是你!能够仅仅只用自己的笔记本电脑,创造诺贝尔奖价值的突破!
你所需要的数据是免费的,而你要做的只是发现它们之间隐藏的关系!
从降维开始
降维,就是要发现数据中非线性和非局部的关系,而这些关系在原始的特征空间中是不明显的。如果我们能够减少某些数据中的维度,我们便可以将其可视化,因为在2D或3D空间中的投影是很容易绘制出来的,除非你用的是PhP。
在一个具有多维度的数据集上训练一个数据模型,通常很复杂 ,而且很容易发生过度拟合。并不是所有的特征都和我们要解决的问题是相关的,如果我们能够减少维度,便能减少噪音,也就是数据中无关紧要的部分,并且能够发现那些意料之外的关联度较大的部分。
而且在小一点的子空间里,我们能应用一些简单的学习算法。
降维分为两部分,即特征选择以及特征抽取。
特征选择就是指找到与问题最相关的特征,选择机制可以基于我们个人的直觉,即我们认为哪些特征可能是最相关的,或者我们可以训练一个模型,让它找到最佳的特征(也就是深度学习)。
特征抽取是指,把数据从高维度空间转到低维度空间之后,找到新的特征,降维的一种方法是主成分分析。
我们要用的数据集是来自英国四个地域的普通人 ,每周吃的十七种食物的记录,我们有了十七个特征/维度,让我们看看能从中发现什么。
PCA将原有的变量转换成一组新的变量,而新变量是原变量的线性组合,这些新的变量被称作主成分。PCA是一次正交线性变换,将原有数据转到新的坐标系,这样投影之后,第一个主成分的方差最大。
第二个成分拥有第二大的方差,并以此类推。方差是用来衡量数据是如何分布的,一个篮球队球员身高的方差是很小的,但加入一组小学生的身高数据之后,整个数据集的方差便会很大。
方差与标准差
第一步是将数据标准化。PCA是一个最大化方差的过程,它将原有的数据投射到某一方向以最大化方差。如果我们画出一个小数据集不同主成分之间的方差,好像只需一个成分便可以解释数据集中所有方差,就好比G20峰会中的普京。但如果我们先对数据进行标准化,可以看出其它的成分也会对总方差有一定贡献。
标准化是指将数据用同一单位来衡量。比如,用克来表示重量,而不是既用千克又用克,这意味着数据的平均值为零,方差为1。
平均值只是集合X中所有X的平均值,对所有数据求和,除以数据点的个数,就是平均值。
方差是标准差的平方。
标准差是数据点与均值平均距离的平方根,它用于说明一组测量值与平均值有多分散。
一旦我们的数据被标准化,我们将进行特征分解,所以如果你的妈妈太胖了,不能嵌入3个空间,特征对(Eigenpair)能帮上忙。Eigen是一个可以大致翻译成特征的德语单词,在线性代数中,特征向量(Eigenvector)是线性变换下,方向不会改变的向量。
如果我们有一个非零向量V,如果AV是V的标量倍数,那么V是方阵A的特征向量,λ标量叫做特征值,与特征向量V相关联,特征值是特征向量的系数,特征向量为数轴提供了量级,如果我们有一个绝对的映射,并将每个点沿固定方向位移。
你看,红色箭头方向变了,但蓝色箭头不会,蓝色箭头是映射的特征向量,它的方向不变,长度不变,特征值为1。
这两个术语在很多领域都很重要,特别是物理学,因为它们可以帮助测量旋转体的稳定性和振动系统的振荡,许多问题可以用线性变换建模,特征向量给出非常简单的解决方案。
A:这幅画维度太多啦!
B:是呀,但我更喜欢PCA。
A:为什么?
B:有很多原因,PCA是确定性的,t-SNE不是,所以正确的答案显而易见啦,还能在2D图上绘制出来,所以我们甚至可以自己画。
解耦方式的运用
如果我们有一个线性微分方程组,例如,衡量两种物种X和Y的种群增长如何相互影响,比如一个是另一个的捕食者,直接解决这个问题很复杂,但是如果我们可以引入两个新的变量Z和W,它们线性依赖于X,我们可以解耦系统,变为处理两个独立的函数,系数矩阵的特征向量和特征值就是做解耦的。
解耦方式是将线性转换变成几个独立的动作,沿不同的方向分开处理。所以我们需要构造一个协方差矩阵,然后我们将在该矩阵上执行特征分解。矩阵只是一个带有值的表,协方差矩阵是对称的 ,所以这个表顶部一行和最左边一列的数是一样的,它描述了数据的方差,还有变量之间的协方差。
协方差衡量了两个变量之间是如何互相影响的,当变量之间的行为模式一致,协方差为正,反之则为负。
PCA试图像线性回归一样在数据中画出一条直线,每一条直线都代表了一个主成分,展示自变量和因变量之间的关系,主成分总数等于数据的维度数目,PCA的作用就是将它们划分出优先顺序。如果两个变量同时变化,很可能是一个因另一个变化而变化,或者它们受同一个隐藏因素的影响。
在协方差矩阵上进行特征值分解,能帮我们在数据中找到正在起作用的隐藏因素。因为我们在高维空间中无法直观地看到变量之间的关系,当计算协方差矩阵时,用来帮助计算的均值向量中。每个值都代表了数据集的特征列里的样本均值,有了特征对,就可以开始选择主成分了。
我们需要决定哪些被剔除,而这就是特征值介入之处,我们将从最高到最低将特征值进行排列,最小的特征值包含了关于数据分布的最少信息,所以我们可以把一部分小的特征值剔除出去,接下来我们建一个投影矩阵,这就是最大的K个特征向量组成的矩阵。
我们可以通过选择特征向量的数目来选择子空间的维度数,也就是通过K维特征向量矩阵(W),来建设K维度。最后,我们用这个投影矩阵来将我们的样本转化进子空间中,通过一个简单的数量积操作,如果我们将数据投影至一个一维空间,那么我们真能看到些有趣的事情,仔细看,北爱尔兰是一个很明显的异常值,这很科学,据数据显示,北爱尔兰人摄入了太多土豆和酒精,却只有非常少的健康选择。
如果我们将两个部分画出图来,同样的事情也会发生,我们能看到其它情况下看不到的数据点之间的关系。总的来说,主成分分析法将数据集转化到一个低维子空间,所以能进行可视化,从而我们可以找到其中隐藏的关系。
主成分就是结合特征值的特征向量,它们描述了在初始特征空间的数据中最大方差的方位,方差衡量了数据到底有多分散。
比赛时间
上周编程比赛中的胜利者是Ong Ja Rui!他实现了一个含颜色和手写数字的自组织特征图,非常高效的代码,记录非常详尽,干得漂亮!Ong,上周的佼佼者。
亚军是Hammad Shaikh,开发了一个非常详尽的笔记,是关于班级人数对学生影响的自组织图。
这周的编程比赛题是从零开始,演示PCA 数据源自选,代码挑战如下:
https://github.com/llSourcell/Dimensionality_Reduction
请在评论中给出你们GitHub链接,我会在下周的更新里给赢家们一个露脸滴!
请关注我,获取更多的编程视频。
现在呢,我得去放一个音乐视频了!
那么,感谢观众老爷们观看~
来源链接:https://www.youtube.com/watch?v=jPmV3j1dAv4&t=3s
深度学习与计算机视觉
稀牛学院最新线上课程,带你了解人工智能领域中,计算机视觉的理论基础与前沿应用!不仅有完善的班级管理,更是首次承诺足量GPU的培训课程!
未来已至,AI不远!
快扫码与时代互动吧!
关于转载
如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。
回复“志愿者”加入我们
点击图片阅读
暑期追剧学AI (4) | 人工智能关键概念“神经网络”是什么?不信看完这个视频你还不懂!
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 总书记对反腐败斗争提出明确要求 7985047
- 2 王星到园区第一天就挨了打 7981798
- 3 25岁模特在泰缅边境失联 7868622
- 4 全国统一大市场建设再提速 7768276
- 5 女生素颜艺考被擦妆5次 7634732
- 6 贪官被“保姆式”围猎细节披露 7597087
- 7 得了甲流可以自愈吗 7483544
- 8 赵樱子自曝曾对成毅因戏生情 7332957
- 9 被颜十六骗去泰国灯光师还没回来 7269524
- 10 洛杉矶大火多位明星豪宅被烧毁 7139371