暑期追剧学AI (5) | 降维打击!发射二向箔的正确姿势

百家 作者:大数据文摘 2017-08-20 12:37:34

大数据文摘作品,转载要求见文末

翻译 | 曾维新,田奥,狗小白

校对| 唱歌的蔬菜,Sophie

后期 | 郭丽


后台回复“字幕组”加入我们!


人工智能中的数学概念一网打尽!欢迎来到YouTube网红小哥Siraj的系列栏目“The Math of Intelligence”,本视频是该系列的第五集,讲解

降维——主成分分析法(PCA)。降维能帮助我们看到数据中隐藏的关系。请大家备好二向箔,马上就要向数据集发出降维打击了!


本期视频时长11分钟,来不及看视频的小伙伴,可以先拉到视频下方看文字部分。

<iframe class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7647058823529411" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=g0539nfoksx&width=370&height=208.125&auto=0" width="370" height="208.125" data-vh="208.125" data-vw="370" style="display: none; width: 370px !important; height: 208.125px !important;"></iframe>

后续系列视频大数据文摘字幕组会持续跟进,陆续汉化推出。大数据文摘获得Siraj本人翻译授权


大家好 我是Siraj,今天我们来可视化一个关于饮食习惯的数据集,来看看能从中学到什么。

让我们开始吧!

现在仍有一些十分困难的科学问题,比如说,我们在宇宙间是孤单的吗?意识是什么?暗物质又是什么?

解决这样的问题,会有百万元的奖励。而这些问题也困扰了科学家近上百年。

但你们猜怎么着,我们很有可能已经有了这些问题的答案!

可问题在于,它们并不是显而易见的,而是藏在数据之中。

美国政府的前任领导人努力试图将人类的基因组序列化,并声称,耗费了好几年的时间 一大批研究人员,以及五千万美元,只是为了找到与囊性纤维化相关的基因。

但同样的工作,现在一个好的研究生只需要几天的时间便能完成,正在看视频的你!对!说的就是你!能够仅仅只用自己的笔记本电脑,创造诺贝尔奖价值的突破!

你所需要的数据是免费的,而你要做的只是发现它们之间隐藏的关系!


从降维开始

降维,就是要发现数据中非线性和非局部的关系而这些关系在原始的特征空间中是不明显的。如果我们能够减少某些数据中的维度,我们便可以将其可视化,因为在2D或3D空间中的投影是很容易绘制出来的,除非你用的是PhP。

在一个具有多维度的数据集上训练一个数据模型,通常很复杂 ,而且很容易发生过度拟合。并不是所有的特征都和我们要解决的问题是相关的,如果我们能够减少维度,便能减少噪音,也就是数据中无关紧要的部分,并且能够发现那些意料之外的关联度较大的部分。

而且在小一点的子空间里,我们能应用一些简单的学习算法。

降维分为两部分,即特征选择以及特征抽取。

特征选择就是指找到与问题最相关的特征,选择机制可以基于我们个人的直觉,即我们认为哪些特征可能是最相关的,或者我们可以训练一个模型,让它找到最佳的特征(也就是深度学习)。

特征抽取是指,把数据从高维度空间转到低维度空间之后,找到新的特征,降维的一种方法是主成分分析。

我们要用的数据集是来自英国四个地域的普通人 ,每周吃的十七种食物的记录,我们有了十七个特征/维度,让我们看看能从中发现什么。

PCA将原有的变量转换成一组新的变量,而新变量是原变量的线性组合,这些新的变量被称作主成分。PCA是一次正交线性变换,将原有数据转到新的坐标系,这样投影之后,第一个主成分的方差最大。

第二个成分拥有第二大的方差,并以此类推。方差是用来衡量数据是如何分布的,一个篮球队球员身高的方差是很小的,但加入一组小学生的身高数据之后,整个数据集的方差便会很大。


方差与标准差

第一步是将数据标准化。PCA是一个最大化方差的过程,它将原有的数据投射到某一方向以最大化方差。如果我们画出一个小数据集不同主成分之间的方差,好像只需一个成分便可以解释数据集中所有方差,就好比G20峰会中的普京。但如果我们先对数据进行标准化,可以看出其它的成分也会对总方差有一定贡献。

标准化是指将数据用同一单位来衡量。比如,用克来表示重量,而不是既用千克又用克,这意味着数据的平均值为零,方差为1。

平均值只是集合X中所有X的平均值,对所有数据求和,除以数据点的个数,就是平均值。

方差是标准差的平方。

标准差是数据点与均值平均距离的平方根,它用于说明一组测量值与平均值有多分散。

一旦我们的数据被标准化,我们将进行特征分解,所以如果你的妈妈太胖了,不能嵌入3个空间,特征对(Eigenpair)能帮上忙。Eigen是一个可以大致翻译成特征的德语单词,在线性代数中,特征向量(Eigenvector)是线性变换下,方向不会改变的向量。

如果我们有一个非零向量V如果AV是V的标量倍数,那么V是方阵A的特征向量,λ标量叫做特征值,与特征向量V相关联,特征值是特征向量的系数,特征向量为数轴提供了量级,如果我们有一个绝对的映射,并将每个点沿固定方向位移。

你看,红色箭头方向变了,但蓝色箭头不会,蓝色箭头是映射的特征向量,它的方向不变,长度不变,特征值为1。

这两个术语在很多领域都很重要,特别是物理学,因为它们可以帮助测量旋转体的稳定性和振动系统的振荡,许多问题可以用线性变换建模,特征向量给出非常简单的解决方案。

A:这幅画维度太多啦!

B:是呀,但我更喜欢PCA。

A:为什么?

B:有很多原因,PCA是确定性的,t-SNE不是,所以正确的答案显而易见啦,还能在2D图上绘制出来,所以我们甚至可以自己画。


解耦方式的运用

如果我们有一个线性微分方程组,例如,衡量两种物种X和Y的种群增长如何相互影响,比如一个是另一个的捕食者,直接解决这个问题很复杂,但是如果我们可以引入两个新的变量Z和W,它们线性依赖于X,我们可以解耦系统,变为处理两个独立的函数,系数矩阵的特征向量和特征值就是做解耦的。

解耦方式是将线性转换变成几个独立的动作,沿不同的方向分开处理。所以我们需要构造一个协方差矩阵,然后我们将在该矩阵上执行特征分解。矩阵只是一个带有值的表,协方差矩阵是对称的 ,所以这个表顶部一行和最左边一列的数是一样的,它描述了数据的方差,还有变量之间的协方差。

协方差衡量了两个变量之间是如何互相影响的,当变量之间的行为模式一致,协方差为正,反之则为负。

PCA试图像线性回归一样在数据中画出一条直线,每一条直线都代表了一个主成分,展示自变量和因变量之间的关系,主成分总数等于数据的维度数目,PCA的作用就是将它们划分出优先顺序。如果两个变量同时变化,很可能是一个因另一个变化而变化,或者它们受同一个隐藏因素的影响。

在协方差矩阵上进行特征值分解,能帮我们在数据中找到正在起作用的隐藏因素。因为我们在高维空间中无法直观地看到变量之间的关系,当计算协方差矩阵时,用来帮助计算的均值向量中。每个值都代表了数据集的特征列里的样本均值,有了特征对,就可以开始选择主成分了。

我们需要决定哪些被剔除,而这就是特征值介入之处,我们将从最高到最低将特征值进行排列,最小的特征值包含了关于数据分布的最少信息,所以我们可以把一部分小的特征值剔除出去,接下来我们建一个投影矩阵,这就是最大的K个特征向量组成的矩阵。

我们可以通过选择特征向量的数目来选择子空间的维度数,也就是通过K维特征向量矩阵(W),来建设K维度。最后,我们用这个投影矩阵来将我们的样本转化进子空间中,通过一个简单的数量积操作,如果我们将数据投影至一个一维空间,那么我们真能看到些有趣的事情,仔细看,北爱尔兰是一个很明显的异常值,这很科学,据数据显示,北爱尔兰人摄入了太多土豆和酒精,却只有非常少的健康选择。

如果我们将两个部分画出图来,同样的事情也会发生,我们能看到其它情况下看不到的数据点之间的关系。总的来说,主成分分析法将数据集转化到一个低维子空间,所以能进行可视化,从而我们可以找到其中隐藏的关系。

主成分就是结合特征值的特征向量,它们描述了在初始特征空间的数据中最大方差的方位,方差衡量了数据到底有多分散。


比赛时间

上周编程比赛中的胜利者是Ong Ja Rui!他实现了一个含颜色和手写数字的自组织特征图,非常高效的代码,记录非常详尽,干得漂亮!Ong,上周的佼佼者。

亚军是Hammad Shaikh,开发了一个非常详尽的笔记,是关于班级人数对学生影响的自组织图。

这周的编程比赛题是从零开始,演示PCA 数据源自选,代码挑战如下:

https://github.com/llSourcell/Dimensionality_Reduction

请在评论中给出你们GitHub链接,我会在下周的更新里给赢家们一个露脸滴!

请关注我,获取更多的编程视频。

现在呢,我得去放一个音乐视频了!

那么,感谢观众老爷们观看~

来源链接:https://www.youtube.com/watch?v=jPmV3j1dAv4&t=3s

 深度学习与计算机视觉 


稀牛学院最新线上课程带你了解人工智能领域中计算机视觉的理论基础前沿应用不仅有完善的班级管理更是首次承诺足量GPU的培训课程 


未来已至,AI不远!

快扫码与时代互动吧!

关于转载

如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

志愿者介绍

回复“志愿者”加入我们


往期精彩文章

点击图片阅读

暑期追剧学AI (4) | 人工智能关键概念“神经网络”是什么?不信看完这个视频你还不懂!


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接