酷应用

推荐：一文读懂概率论学习：贝叶斯理论（附链接）

百家作者：数据分析 2019-11-22 07:00:58

作者：Jaime Zornoza ?翻译：李洁 ?校对：郑滋

本文长度约为3400字，建议阅读10分钟

本文为大家详细介绍了概念学习中常见的贝叶斯理论。

通过一个简单示例，了解概率的基本定理之一。

本文需要你有一些概率和统计的基本知识。如果你没有，别怕，我已经收集了一系列我能找到的最好的资源来为你介绍这些主题，以便你阅读，理解和充分享受文章内容。

在这篇文章中，我们将讨论概率论中最著名和最常用的定理之一:贝叶斯定理。从未听说过吗? 那你就有福了! 已经了解了吗??那就继续读下去，用一个简单例子来巩固你的知识，以便你也可以用简单的术语向别人解释。

在以后的文章中，我们将学习一些更实用的贝叶斯定理的简化，以及其他机器学习的概率方法，例如隐马尔可夫模型。

我们开始吧！

概率介绍

在本节中，我列出了三个非常棒的简洁的资源（主要是前两个，第三个更广泛一点），以提供理解本文所需要了解的概率基础。不用担心，这些概念非常简单，只要快速阅读一下你就肯定能完全理解它们。

如果你已经掌握了基本概率论，可以跳过此部分。

带有简明定义的中等难度的文章（https://medium.com/@laumannfelix/statistics-probability-fundamentals-1-1325ef72f3f）?，内容涵盖了理解这篇文章所需要的主要的概率论术语和其他的一些说明性的简单例子。
有趣的机器学习中的概率简介（http://www.mbmlbook.com/MurderMystery.html），主要通过一个神秘但简单的示例介绍了概率的主要术语。
哈佛大学的统计110课程（https://projects.iq.harvard.edu/stat110/home）。如果你不仅想学习基础知识，还想更深入地了解统计的美好世界，这里有更丰富的资源。

好了，现在你可以继续读剩下的内容了，坐下来，放松并享受吧。

贝叶斯定理

谁是贝叶斯？

托马斯·贝叶斯（Thomas Bayes，1701年-1761年）是英国神学家、数学家，皇家学会（世界上最古老的国家科学学会，也是英国促进科学研究的领先国家组织）会员。其他的科学家也加入了皇家学会，例如牛顿，达尔文和法拉第。他提出了最重要的概率定理之一，并以他的名字命名：贝叶斯定理，或条件概率定理。

尊敬的托马斯·贝叶斯的画像，贝叶斯定理之父

定理：条件概率

为了解释这个定理，我们将举一个非常简单的例子。假设你被诊断出患有非常罕见的疾病，这种病患的比例仅是人口的0.1％，即每千人中有1人。

你参加的检查这种疾病的检测能正确地找出99%的患者，将健康的人错误分类的几率只有1%。

真是命中注定!医生，这种病会致命吗?

大多数人都会这么问。然而，在这次测试之后，我们真正患这种疾病的几率有多大呢?

99%!可以开始整理我的遗物了。

基于这种想法，贝叶斯思想应该占上风，因为它实际上离真实值非常遥远。让我们用贝叶斯定理来获得一些观点。

贝叶斯定理，或之前所说的条件概率定理，是用来计算某一事件(E)已经发生(例如在测试中被诊断为阳性)时假设(H)为真的概率。计算公式如下:

贝叶斯的条件概率公式

等号左边的P（H|E）项是已经在疾病测试中诊断为阳性（E）的条件下患病（H）的概率，这是我们实际想要计算的。概率项中的竖线（|）表示条件概率（即， B的条件下A的概率表示为P（A|B））。

假如假设为真，则右边分子的左项P（E|H）是事件的概率。在示例中，就是我们患有这种疾病的情况下，在测试中被诊断为阳性的可能性。

旁边的P（H）项是在任何事件发生之前假设的先验概率。这是在进行任何检查之前患上疾病的可能性。

最后，分母上的P（E）项是事件的概率，即被诊断为疾病阳性的概率。该项可以进一步分解为两个较小项的和：患病且检测为阳性和不患病且检测为阳性。

解构了测试结果为阳性的概率

在这个公式中，P（?H）表示没有疾病的先验概率，其中?表示否定。?下图描述了条件概率的整体计算中涉及的每一项：

描述贝叶斯定理公式所涉及的每一项

对于我们来说，请记住，假设H患有疾病，事件E为在此类疾病的测试中被诊断为阳性。

如果使用我们见过的第一个公式（用于计算患病并被诊断为阳性的条件概率的完整公式），分解分母并插入数字，我们将得到以下算式：

条件概率的计算

0.99来自于有疾病被诊断出阳性的概率99%,0.001是患病的几率1/1000,0.999是未患病的概率，0.01是即使没有患病也被诊断为阳性的可能性。计算的最终结果是:

计算结果

9% !我们得这种病的几率只有9% !“这怎么可能呢?”你可能在问自己。魔法吗?不，我的朋友们，这不是魔法，这只是概率:应用数学的常识。像丹尼尔?卡尼曼(Daniel Kahneman)在《思考，快与慢》中所描述的那样,人的大脑很难估计和计算概率,就像前面的示例所展示的一样,所以我们应该警惕直觉的惯性思考,后退一步,使用所能用的概率工具。

现在想象一下，在第一次测试被诊断为阳性后，我们决定在另一个不同的诊所做另一次相同条件的测试来复查结果，不幸的是我们再次得到了阳性的诊断，这说明第二次测试也表明我们患有这种疾病。

现在患病的实际概率是多少?我们可以使用与之前完全相同的公式，只是将最初的先验概率(患病几率为0.1%)替换为之前的后验概率(在一次检测中被诊断为阳性的几率为9%)，以及其他项。

如果我们处理得到的数字: