一图胜千言 :图解机器学习!
四大会计师事务所之一的普华永道(PwC)发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。为便于读者阅读,机器之心对这些图表进行了编译和拆分,分三大部分对这些内容进行了呈现,希望能帮助你进一步扩展阅读。
快速三维地图测绘和建模:要建造一架铁路桥,PwC 的数据科学家和领域专家将机器学习应用到了无人机收集到的数据上。这种组合实现了工作成功中的精准监控和快速反馈。 增强分析以降低风险:为了检测内部交易,PwC 将机器学习和其它分析技术结合了起来,从而开发了更为全面的用户概况,并且获得了对复杂可疑行为的更深度了解。 预测表现最佳的目标:PwC 使用机器学习和其它分析方法来评估 Melbourne Cup 赛场上不同赛马的潜力。
二、机器学习的演化
主导流派:符号主义; 架构:服务器或大型机; 主导理论:知识工程; 基本决策逻辑:决策支持系统,实用性有限。
主导流派:贝叶斯; 架构:小型服务器集群; 主导理论:概率论; 分类:可扩展的比较或对比,对许多任务都足够好了。
主导流派:联结主义; 架构:大型服务器农场; 主导理论:神经科学和概率; 识别:更加精准的图像和声音识别、翻译、情绪分析等。
主导流派:联结主义+符号主义; 架构:许多云; 主导理论:记忆神经网络、大规模集成、基于知识的推理; 简单的问答:范围狭窄的、领域特定的知识共享。
主导流派:联结主义+符号主义+贝叶斯+……; 架构:云计算和雾计算; 主导理论:感知的时候有网络,推理和工作的时候有规则; 简单感知、推理和行动:有限制的自动化或人机交互。
主导流派:算法融合; 架构:无处不在的服务器; 主导理论:最佳组合的元学习; 感知和响应:基于通过多种学习方式获得的知识或经验采取行动或做出回答。
优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估; 场景举例:基于规则的信用评估、赛马结果预测。 2. 支持向量机(Support Vector Machine):基于超平面(hyperplane),支持向量机可以对数据群进行分类。 3. 回归(Regression):回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。 4. 朴素贝叶斯分类(Naive Bayes Classification):朴素贝叶斯分类器用于计算可能条件的分支概率。 每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象。例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。 5. 隐马尔可夫模型(Hidden Markov model):显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态。 交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率。 6. 随机森林(Random forest):随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性。 本例在基因表达层面上考察了大量与乳腺癌复发相关的基因,并计算出复发风险。 7. 循环神经网络(Recurrent neural network):在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。 循环神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。 8. 长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):早期的 RNN 形式是会存在损耗的。 尽管这些早期循环神经网络只允许留存少量的早期信息,新近的长短期记忆(LSTM)与门控循环单元(GRU)神经网络都有长期与短期的记忆。换句话说,这些新近的 RNN 拥有更好的控制记忆的能力,允许保留早先的值或是当有必要处理很多系列步骤时重置这些值,这避免了「梯度衰减」或逐层传递的值的最终 degradation。LSTM 与 GRU 网络使得我们可以使用被称为「门(gate)」的记忆模块或结构来控制记忆,这种门可以在合适的时候传递或重置值。 9. 卷积神经网络(convolutional neural network):卷积是指来自后续层的权重的融合,可用于标记输出层。 优点:当存在非常大型的数据集、大量特征和复杂的分类任务时,卷积神经网络是非常有用的; 场景举例:图像识别、文本转语音、药物发现。 优点:长短期记忆和门控循环单元神经网络具备与其它循环神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用; 场景举例:自然语言处理、翻译。 优点:循环神经网络在存在大量有序信息时具有预测能力; 场景举例:图像分类与字幕添加、政治情感分析。 优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用; 场景举例:用户流失分析、风险评估。 优点:容许数据的变化性,适用于识别(recognition)和预测操作; 场景举例:面部表情分析、气象预测。 优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类; 场景举例:情感分析、消费者分类。 优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显; 场景举例:路面交通流量分析、邮件过滤。 优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的; 场景举例:新闻分类、手写识别。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号
随时掌握互联网精彩
随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 澳门是伟大祖国的一方宝地 7908680
- 2 女子穿板鞋爬山回家脱鞋时被吓一跳 7923306
- 3 张雨绮 为了讨大家喜欢才穿成这样 7810258
- 4 2024 向上的中国 7764062
- 5 72岁老人3年拍100部短剧 7619008
- 6 免费升级宽带后家里成“电诈中心” 7523182
- 7 90%烧伤男生父亲:对方让我高抬贵手 7425850
- 8 9岁女孩胃里取出直径4厘米头发团 7334057
- 9 春熙路不能随便开直播了 7293517
- 10 男子网贷1000元3天内需还2000元 7165140