作为逻辑的概率

摘要本文概述认为，概率并非对象的物理属性，而是经典逻辑在似然性上的唯一一致扩展。从“心灵投射谬误”与机器人规范性构造出发，经由所有概率的条件性、最大熵先验分配原则，最终得出结论：频率派与贝叶斯学派的争端在这一更高视角下消解——频率派方法作为更广泛逻辑框架中的良态特例而涌现。针对原始综合可能存在的过度论断，文中给出了诚实限定。

§ 01 核心定义：作为扩展逻辑的概率

经典二值逻辑为每个命题赋予取自集合 {0, 1} 的值——假或真。这是一种适用于演绎确定性的理想化。然而现实世界几乎从不提供达到这种确定性所需的信息。概率是在信息缺失时进行诚实推理的数学工具。

在这一框架中，概率不是对频率表的计数操作，不是量子力学的奇特性，也不是心理倾向。它是似然性的一种数值度量——可用的信息集合在理性上允许一个命题成立的程度。这使得概率成为认知情势的属性，而非研究对象本身的属性。

核心原则 —— 心灵投射谬误

将认知状态误当作本体状态的错误。一副洗过的牌并不“物理随机”：其顺序是固定且确定的。“随机性”是我们对自己无知的命名。说这手牌是随机的，是在做出关于我们自己的论断，而非关于这手牌。混淆两者会在概率推理中产生系统性困惑。

这一洞见具有广泛的普适性。当我们说某只股票有“30% 的上涨概率”时，我们并不是在测量股票中的某种物理倾向。我们是在将所有已知信息——盈利、宏观制度、订单流、持仓——总结为一个关于命题“股票上涨”的单一数值凭证。信息改变，概率必须随之改变。这不是主观性，而是逻辑必然性。

规范性构造 —— 机器人

为了严格推理，我们采纳一个假想机器人的标准，它受两个规则支配：(1) 一致性 —— 如果一个结论可以通过多条路径得出，每条路径必须到达相同的答案；(2) 诚实性 —— 机器人使用所有可用信息，且从不调用它并不拥有的信息。这是理性的规范性标准：不是对人类如何推理的描述，而是对他们在不确定性下应当如何推理的精确规范。

机器人构造并非偶然地情感中立——它被设计成如此。其目的在于提供一个固定的逻辑参照，用以评估和修正人类推理。Cox–Jaynes 推导表明，任何满足这两个公理的体系都必须遵循标准的概率演算规则。这些规则不是被假设的，而是被推导出来的。

§ 02 黄金法则：所有概率都是有条件的

也许在应用推理中，最重要且最常被违反的原则是：不存在无条件概率这回事。每个概率都应完整写作 \(P(A \mid I)\)，其中 \(A\) 是命题，\(I\) 是作为赋值背景的总体信息。

当我们写 \(P(A)\) 时，仅仅是为了记法方便而压制了条件。这种压制始终是潜在的错误来源。当两位分析师对某个概率意见不同时，分歧几乎总是可以追溯到 \(I\) 的不同——他们基于不同的信息集进行推理，而不是各自犯了逻辑错误。

\[ P(H \mid D, I) \;=\; \frac{P(D \mid H, I)\; P(H \mid I)}{P(D \mid I)} \] 完整的贝叶斯定理 —— 支配接收到新数据 \(D\) 后理性信念更新的逻辑法则，给定背景 \(I\)。

如此表述的贝叶斯定理并非一项统计技术。它是概率演算的一个定理，具有与演绎规则相同的逻辑地位。它精确地告诉我们，当数据 \(D\) 到达时，我们对假说 \(H\) 的置信度必须如何变化：

先验 \(P(H \mid I)\) 编码了数据到达之前我们所知的一切——它必须被陈述，而非隐藏。
似然 \(P(D \mid H, I)\) 提问：如果假说为真，这组数据的可能性有多大？
证据 \(P(D \mid I)\) 是一个归一化常数，确保后验是合法分布。
后验 \(P(H \mid D, I)\) 是我们新的理性置信度——应用该法则的强制性输出。

诚实限定

贝叶斯定理作为一个逻辑恒等式是普遍有效的。然而，实践中的困难——也是对朴素贝叶斯主义的合理批评——在于指定先验 \(P(H \mid I)\) 和似然函数往往并不简单。该框架告诉我们必须有一个先验；但它并不总是告诉我们选择哪一个。第3节将直接处理这一问题。

这一原则一个未被充分认识的后果是跨越逻辑时间的推理对称性。贝叶斯定理在正向方向（从假说预测未来数据）和反向方向（从观测数据推断原因）具有同等的有效性。我们在时间上体验到的非对称性是物理世界的一个特征，而非推理逻辑的特征。

§ 03 最大熵原理：选择最无假设的先验

贝叶斯定理的每次应用都需要一个先验。当信息稀疏时如何分配先验，并非细枝末节的技术问题——它是推断基础中最深层的问题。杰恩斯的答案是最大熵原理。

该原理指出：给定概率分布上的一组已知约束（矩、边界、对称性），分配与这些约束一致的具有最高香农熵的分布。形式化地，最大化：

\[ H[p] \;=\; -\sum_i p_i \log p_i \quad \text{subject to constraints} \quad \sum_i p_i f_k(x_i) = \langle f_k \rangle \] 最大熵变分问题。在您实际已知的约束下最大化信息熵。

其哲学理由精确而严谨：最大熵是唯一编码给定约束且不含更多信息的分布。任何其他选择都会偷偷引入隐藏信息——它断言了推理者实际上并不具备的结构。因此，最大熵是诚实的先验。

已知约束	最大熵分布	解释
有限支撑集，无其他信息	均匀分布	所有结果同样似然——经典的“无差别原理”
已知均值 \(\mu\) 在 \([0,\infty)\) 上	指数分布(\(\mu\))	与指定平均值一致的最分散分布
已知均值 \(\mu\) 和方差 \(\sigma^2\)	高斯分布\((\mu, \sigma^2)\)	钟形曲线不是被假设的，而是从两个约束中推导出来的
已知 \([0,1]\) 上的均值	贝塔分布	概率之概率问题中的自然先验

深层结论 —— 高斯分布是推导结果，而非假设

正态分布在自然界中的普遍性在最大熵下不再神秘：只要连续分布的唯一约束是有限的均值和方差，高斯分布就是那种无知的最诚实的唯一表征。中心极限定理是通往同一对象的频率学派路径。两条道路在此交汇。

最大熵自然推广到最大相对熵原理（也称为 MinXEnt 或 Kullback–Leibler 框架），用于处理已经存在先验时的更新：最小化信息增益——即相对于先验的 KL 散度——服从新的约束。这是从信息论起点推导出的贝叶斯更新。

§ 04 化解频率派与贝叶斯学派的分歧

在二十世纪的大部分时间里，统计学分裂为两个敌对的阵营。回顾来看，这种分裂很大程度上是双方都在不够一般的层面上操作的结果。从杰恩斯框架来看，这一冲突不是被解决，而是被消解——因为其中一个立场涵摄了另一个。

频率主义

概率被定义为在无限序列的独立、相同试验中一个结果出现的极限相对频率。因此，概率只对可重复的实验有意义。参数是固定但未知的；只有数据是随机的。推断通过抽样分布、p 值和置信区间进行。

逻辑 / 贝叶斯学派

概率是理性置信度的度量，适用于任何良定义的命题——包括一次性事件、模型参数和因果假说。数据和参数都相对于信息状态被视为随机变量。推断通过贝叶斯定理进行；不确定性以后验分布表达。

关键的数学结果是：频率派方法在特定的、良定义的条件（通常是可交换性、大样本极限以及特定先验选择——通常是无信息先验或参考先验）下，被恢复为贝叶斯推断的极限情况。例如，最大似然估计的频率派抽样分布，就是在平坦先验和无限数据极限下贝叶斯后验的样子。

这不仅仅是说数值一致。它是一个更深刻的论断：频率派程序是良好校准的，恰好当且仅当它们能够从一个连贯的贝叶斯基础推导出来时。当它们不能如此推导时，往往会产生病态现象——例如，置信区间虽然具有正确的长期频率覆盖真值，但在某个具体实现的案例中覆盖真值的概率却为零。

杰恩斯过度论断之处 —— 一项诚实评估

声称频率主义仅仅是“被禁止的”贝叶斯主义，多少有些低估了频率派的一个合理美德：做出更弱的假设有时恰好是正确的。调查抽样中的设计推断、临床试验中的置换检验以及置信分布方法，各自具有不能干净地还原为杰恩斯图景的稳健性属性。贝叶斯框架更一般；但它并不总是更合适。

§ 05 信息论：更深层的基础

香农的信息论与杰恩斯的概率框架不仅相容——它们是从不同方向抵达的同一底层结构的表达。香农问：从具有已知概率分布 \(p\) 的信源传输一条消息所需的最少比特数是多少？答案是熵 \(H[p] = -\sum p_i \log p_i\)。杰恩斯问：理性主体应当为未知信源分配什么样的分布？答案（在仅已知熵约束的条件下）是通过最大化——同一个函数——找到的。

这种趋同并非偶然。它反映了这样一个事实：概率、信息和逻辑是同一套在不确定性下进行一致推理的理论的三个面向。

熵度量一个概率赋值中不可约的不确定性——即观测到一个结果时的期望信息增益。
KL 散度 \(D_{KL}(P \| Q)\) 度量当 \(P\) 为真实分布时使用分布 \(Q\) 的信息代价——一种自然的推断损失函数。
互信息 \(I(X;Y)\) 度量知道 \(Y\) 能减少多少关于 \(X\) 的不确定性——“相关性”的形式化版本。
数据处理不等式 形式化地说明：你不能从处理后的数据中提取出比原始数据中更多的信息——这一定理对推断链条具有深远含义。

对分析师的实践启示

每一个模型压缩、每一次特征选择、机器学习中的每一项正则化技术，都可以被理解为信息论原则的结构化应用。理解这一基础的分析师不是在按惯例选择工具——而是在推理其选择所蕴含的认知承诺。

§ 06 五项操作原则

前述框架若被恰当内化，则不仅仅是哲学思辨。它会改变一个人作为分析师、投资者或科学家的行动方式。以下五项原则将逻辑框架转化为操作准则：

明确陈述你的先验。 每个概率论断都依赖于背景假设。让它们浮出水面。一个不能阐明其先验的分析师并非消除了先验——他们仅仅是隐藏了它，而隐藏的先验无法被审视、质疑或更新。
在所有证据上更新，而不仅仅是确认性证据。 贝叶斯推理是对称的：确认假说的数据会提高其后验；否定假说的数据必须降低它。选择性更新不是谨慎——而是一个会随时间累积的逻辑错误。
信息稀疏时使用最大熵构造先验。 不要出于习惯或计算便利而随意选择分布。问问自己实际知道什么——边界、矩、对称性——并从这些约束中推导出最诚实的分布。
切勿将认知状态投射到对象上。 当你说一项交易“有风险”或一次并购“不太可能”时，你是在陈述关于自己信息状态的论断，而不是关于交易或并购本身。区分这些范畴。混淆它们会产生过度自信、叙事偏差和锚定效应。
要求不确定性的可解释性。 一个不能被解释为对命题的直接置信度——而仅仅对假设的长期行为做出声称——的概率区间，对于单次决策而言在操作上是次优的。只要决策时域是有限的，就应优先选择后验可信区间而非经典的置信区间。

“概率不是对象的物理属性——它是诚实无知的严谨语言。正确使用它，就是精确地知道自己不知道什么。”

—— 综合自杰恩斯 · 《概率论：科学的逻辑》

§ 07 总结：框架的架构

论题	核心主张	评判
概率作为逻辑	概率是扩展的逻辑——一种似然推理的度量，而非物理属性	稳健正确；仅在量子基础层面受到质疑
心灵投射谬误	随机性是认知的，而非本体的；“机器人”是规范性标准	作为诊断原则是正确的；机器人公理是被选择的，而非唯一可推导的
条件性	所有概率都是有条件的；贝叶斯定理是逻辑法则，而非技术手段	框架中最可辩护的论题
最大熵先验	分配与已知约束一致的最大熵分布	作为唯一性结果正确；约束的选择仍然是分析师的职责
频率主义作为特例	频率派方法是对称条件下贝叶斯推断的极限情况	数学上基本正确；作为哲学主张略带论战色彩

本文概述综合了 E.T. 杰恩斯《概率论：科学的逻辑》(2003) 与香农信息论及随后的贝叶斯认识论发展。限定部分反映了量子基础、非参数统计和科学哲学中的持续辩论。该框架被呈现为现有最连贯的基础——而非一个封闭的体系。