概率论的两个学派

本文给出了研究概率论的两个学派。

概率论的两个学派:频率学派和贝叶斯学派

频率学派:通过观察数据来确定背后的概率分布。

统计学中一个主要的问题是估计参数。我们用一个取值为样本的函数来估计我们感兴趣的参数,并称这个函数为估计量。这个估计量有良好的性质:无偏性和相合性。

点估计

以一个估计圆周率 $\pi$ 的例子来说明。圆周率 $\pi$ 可以由圆与其外切正方形的面积比来表示:

$$S_{circle}=\pi r^{2}$$
$$S_{square}4 r^{2}$$

则有

$$\pi = 4 \frac{S_{circle}}{S_{square}}$$

先我们均匀地在正方形上随机生成 $n$ 个样本,用 $m$ 来表示落入这个正方形内切圆的样本个数。定义估计量 $\hat{\pi}$ 如下:

$$\hat{\pi} = 4\frac{m}{n}$$

点估计虽然给出了未知参数的估计值,但是未给出估计值的可靠程度,即估计值偏离未知参数真实值的程度。

区间估计

知乎上的一个讲解 $95%$ 置信区间例子来讲解区间估计

一般我们用中括号 $[a,b]$ 表示样本估计总体平均值误差范围的区间。$a、b$ 的具体数值取决于你对于「该区间包含总体均值」这一结果的可信程度,因此 $[a,b]$ 被称为置信区间。

现在我们要统计人类的平均身高,这个数据是真实存在的,只是我们不知道。在上帝视角下,假设人类的身高分布服从如下的正态分布

$$X \sim N(\mu, \sigma ^2)$$

作为愚蠢的人类,我们只能在人群中抽样统计。抽样的样本大小为 $n$,对应的样本值为 $x_{n}$,则样本均值为

$$M=\frac{x_{1} + x_{2} + \dots + x_{n}}{n}$$

通过不断的采样,根据中心极限定理和大数定理,样本的均值 $M$ 服从正态分布

$$M \sim N(\mu, \frac{\sigma ^ {2}}{n})$$

我们可以算出以 $\mu$ 为中心,面积为 $0.95$ 的区间,即

$$P(\mu - 1.96 \frac{\sigma}{\sqrt{n}} \le M \le \mu + 1.96 \frac{\sigma}{\sqrt{n}}) = 0.95$$

也就是, $M$ 有 $95%$ 的几率落入此区间

自助法(Bootstrap)

在统计学中,自助法(Bootstrap Method,Bootstrapping,或自助抽樣法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。

贝叶斯学派:用数据来更新特定假设的概率。

贝叶斯公式

$$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$$

全文完


参考文献