先验概率(prior probability):指根据以往经验和分析,在实验或采样前就可以得到的概率。 后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。(有果求因) 例如:已知早上堵车的事件为A,发生概率为,那么就是先验概率;假设导致堵车的因素有两个:车辆太多(事件)和车祸(事件),组成完备事件组,那么是因为车祸导致堵车的概率即为条件概率,这是有因求果。早上堵车事件已经发生,求是因为车祸事件导致的概率,即,这就是后验概率(也是条件概率,但是通常习惯这么说),这是有果求因。 全概率公式: 若事件满足下列两条件: (1). (2). 那么称事件为完备事件组,则全概率公式为:贝叶斯公式: 若事件为完备事件组,且,为任意事件,,则贝叶斯公式为:通常把叫做先验概率,就是做试验前的概率,就是经验了;而把叫做后验概率,在统计决策中十分重要,由此得到的决策叫做贝叶斯决策。
7.1 贝叶斯决策论
贝叶斯决策论(Bayesian decision theory) 是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都己知的理想情形下 ,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们以多分类任务为例来解释其基本原理。
假设有种可能的类别标记,即,是将一个真实标记为的样本误分类为所产生的损失。基于后验概率可获得将样本分类为所产生的期望损失(expected loss)即在样本上的“条件风险”(condition risk)
我们的任务是寻找一个判定准则 以最小化总体风险
显然,对每个样本,若能最小化条件风险,则总体风险也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即:
此时,称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险称为贝叶斯风险(Bayes risk)。反应了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上线。
分析。在实验或采样前就可以得到的概率。
后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。