经典二值逻辑为每个命题赋予取自集合 {0, 1} 的值——假或真。这是一种适用于演绎确定性的理想化。然而现实世界几乎从不提供达到这种确定性所需的信息。概率是在信息缺失时进行诚实推理的数学工具。
在这一框架中,概率不是对频率表的计数操作,不是量子力学的奇特性,也不是心理倾向。它是似然性的一种数值度量——可用的信息集合在理性上允许一个命题成立的程度。这使得概率成为认知情势的属性,而非研究对象本身的属性。
将认知状态误当作本体状态的错误。一副洗过的牌并不“物理随机”:其顺序是固定且确定的。“随机性”是我们对自己无知的命名。说这手牌是随机的,是在做出关于我们自己的论断,而非关于这手牌。混淆两者会在概率推理中产生系统性困惑。
这一洞见具有广泛的普适性。当我们说某只股票有“30% 的上涨概率”时,我们并不是在测量股票中的某种物理倾向。我们是在将所有已知信息——盈利、宏观制度、订单流、持仓——总结为一个关于命题“股票上涨”的单一数值凭证。信息改变,概率必须随之改变。这不是主观性,而是逻辑必然性。
为了严格推理,我们采纳一个假想机器人的标准,它受两个规则支配:(1) 一致性 —— 如果一个结论可以通过多条路径得出,每条路径必须到达相同的答案;(2) 诚实性 —— 机器人使用所有可用信息,且从不调用它并不拥有的信息。这是理性的规范性标准:不是对人类如何推理的描述,而是对他们在不确定性下应当如何推理的精确规范。
机器人构造并非偶然地情感中立——它被设计成如此。其目的在于提供一个固定的逻辑参照,用以评估和修正人类推理。Cox–Jaynes 推导表明,任何满足这两个公理的体系都必须遵循标准的概率演算规则。这些规则不是被假设的,而是被推导出来的。
也许在应用推理中,最重要且最常被违反的原则是:不存在无条件概率这回事。每个概率都应完整写作 \(P(A \mid I)\),其中 \(A\) 是命题,\(I\) 是作为赋值背景的总体信息。
当我们写 \(P(A)\) 时,仅仅是为了记法方便而压制了条件。这种压制始终是潜在的错误来源。当两位分析师对某个概率意见不同时,分歧几乎总是可以追溯到 \(I\) 的不同——他们基于不同的信息集进行推理,而不是各自犯了逻辑错误。
如此表述的贝叶斯定理并非一项统计技术。它是概率演算的一个定理,具有与演绎规则相同的逻辑地位。它精确地告诉我们,当数据 \(D\) 到达时,我们对假说 \(H\) 的置信度必须如何变化:
贝叶斯定理作为一个逻辑恒等式是普遍有效的。然而,实践中的困难——也是对朴素贝叶斯主义的合理批评——在于指定先验 \(P(H \mid I)\) 和似然函数往往并不简单。该框架告诉我们必须有一个先验;但它并不总是告诉我们选择哪一个。第3节将直接处理这一问题。
这一原则一个未被充分认识的后果是跨越逻辑时间的推理对称性。贝叶斯定理在正向方向(从假说预测未来数据)和反向方向(从观测数据推断原因)具有同等的有效性。我们在时间上体验到的非对称性是物理世界的一个特征,而非推理逻辑的特征。
贝叶斯定理的每次应用都需要一个先验。当信息稀疏时如何分配先验,并非细枝末节的技术问题——它是推断基础中最深层的问题。杰恩斯的答案是最大熵原理。
该原理指出:给定概率分布上的一组已知约束(矩、边界、对称性),分配与这些约束一致的具有最高香农熵的分布。形式化地,最大化:
其哲学理由精确而严谨:最大熵是唯一编码给定约束且不含更多信息的分布。任何其他选择都会偷偷引入隐藏信息——它断言了推理者实际上并不具备的结构。因此,最大熵是诚实的先验。
| 已知约束 | 最大熵分布 | 解释 |
|---|---|---|
| 有限支撑集,无其他信息 | 均匀分布 | 所有结果同样似然——经典的“无差别原理” |
| 已知均值 \(\mu\) 在 \([0,\infty)\) 上 | 指数分布(\(\mu\)) | 与指定平均值一致的最分散分布 |
| 已知均值 \(\mu\) 和方差 \(\sigma^2\) | 高斯分布\((\mu, \sigma^2)\) | 钟形曲线不是被假设的,而是从两个约束中推导出来的 |
| 已知 \([0,1]\) 上的均值 | 贝塔分布 | 概率之概率问题中的自然先验 |
正态分布在自然界中的普遍性在最大熵下不再神秘:只要连续分布的唯一约束是有限的均值和方差,高斯分布就是那种无知的最诚实的唯一表征。中心极限定理是通往同一对象的频率学派路径。两条道路在此交汇。
最大熵自然推广到最大相对熵原理(也称为 MinXEnt 或 Kullback–Leibler 框架),用于处理已经存在先验时的更新:最小化信息增益——即相对于先验的 KL 散度——服从新的约束。这是从信息论起点推导出的贝叶斯更新。
在二十世纪的大部分时间里,统计学分裂为两个敌对的阵营。回顾来看,这种分裂很大程度上是双方都在不够一般的层面上操作的结果。从杰恩斯框架来看,这一冲突不是被解决,而是被消解——因为其中一个立场涵摄了另一个。
概率被定义为在无限序列的独立、相同试验中一个结果出现的极限相对频率。因此,概率只对可重复的实验有意义。参数是固定但未知的;只有数据是随机的。推断通过抽样分布、p 值和置信区间进行。
概率是理性置信度的度量,适用于任何良定义的命题——包括一次性事件、模型参数和因果假说。数据和参数都相对于信息状态被视为随机变量。推断通过贝叶斯定理进行;不确定性以后验分布表达。
关键的数学结果是:频率派方法在特定的、良定义的条件(通常是可交换性、大样本极限以及特定先验选择——通常是无信息先验或参考先验)下,被恢复为贝叶斯推断的极限情况。例如,最大似然估计的频率派抽样分布,就是在平坦先验和无限数据极限下贝叶斯后验的样子。
这不仅仅是说数值一致。它是一个更深刻的论断:频率派程序是良好校准的,恰好当且仅当它们能够从一个连贯的贝叶斯基础推导出来时。当它们不能如此推导时,往往会产生病态现象——例如,置信区间虽然具有正确的长期频率覆盖真值,但在某个具体实现的案例中覆盖真值的概率却为零。
声称频率主义仅仅是“被禁止的”贝叶斯主义,多少有些低估了频率派的一个合理美德:做出更弱的假设有时恰好是正确的。调查抽样中的设计推断、临床试验中的置换检验以及置信分布方法,各自具有不能干净地还原为杰恩斯图景的稳健性属性。贝叶斯框架更一般;但它并不总是更合适。
香农的信息论与杰恩斯的概率框架不仅相容——它们是从不同方向抵达的同一底层结构的表达。香农问:从具有已知概率分布 \(p\) 的信源传输一条消息所需的最少比特数是多少?答案是熵 \(H[p] = -\sum p_i \log p_i\)。杰恩斯问:理性主体应当为未知信源分配什么样的分布?答案(在仅已知熵约束的条件下)是通过最大化——同一个函数——找到的。
这种趋同并非偶然。它反映了这样一个事实:概率、信息和逻辑是同一套在不确定性下进行一致推理的理论的三个面向。
每一个模型压缩、每一次特征选择、机器学习中的每一项正则化技术,都可以被理解为信息论原则的结构化应用。理解这一基础的分析师不是在按惯例选择工具——而是在推理其选择所蕴含的认知承诺。
前述框架若被恰当内化,则不仅仅是哲学思辨。它会改变一个人作为分析师、投资者或科学家的行动方式。以下五项原则将逻辑框架转化为操作准则:
“概率不是对象的物理属性——它是诚实无知的严谨语言。正确使用它,就是精确地知道自己不知道什么。”
—— 综合自杰恩斯 · 《概率论:科学的逻辑》| 论题 | 核心主张 | 评判 |
|---|---|---|
| 概率作为逻辑 | 概率是扩展的逻辑——一种似然推理的度量,而非物理属性 | 稳健正确;仅在量子基础层面受到质疑 |
| 心灵投射谬误 | 随机性是认知的,而非本体的;“机器人”是规范性标准 | 作为诊断原则是正确的;机器人公理是被选择的,而非唯一可推导的 |
| 条件性 | 所有概率都是有条件的;贝叶斯定理是逻辑法则,而非技术手段 | 框架中最可辩护的论题 |
| 最大熵先验 | 分配与已知约束一致的最大熵分布 | 作为唯一性结果正确;约束的选择仍然是分析师的职责 |
| 频率主义作为特例 | 频率派方法是对称条件下贝叶斯推断的极限情况 | 数学上基本正确;作为哲学主张略带论战色彩 |
本文概述综合了 E.T. 杰恩斯《概率论:科学的逻辑》(2003) 与香农信息论及随后的贝叶斯认识论发展。限定部分反映了量子基础、非参数统计和科学哲学中的持续辩论。该框架被呈现为现有最连贯的基础——而非一个封闭的体系。