雕刻

当前位置:北京快三 > 雕刻 > 正态分布的前世今生(上)

正态分布的前世今生(上)

来源:http://www.yylbdq.com 作者:北京快三 时间:2019-11-07 11:59

神说,要有正态分布,就有了正态分布。
神看正态分布是好的,就让随机误差服从了正态分布。
创世纪—数理统计

转自-靳志辉(Rickjin@weibo.com)

1. 正态分布,熟悉的陌生人

神说要有正态分布,就有了正态分布。

学过基础统计学的同学大都对正态分布非常熟悉。这个钟形的分布曲线不但形状优雅,它对应的密度函数写成数学表达式

神说正态分布是好的,就让随机误差服从了正态分布

f(x)=12π−−√σe−(x−μ)22σ2

创世纪---数理统计

也非常具有数学的美感。其标准化后的概率密度函数

北京快三平台 1

f(x)=12π−−√e−x22

密度函数公式

更加的简洁漂亮,两个最重要的数学常量 π、e 都出现在这公式之中。在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。

北京快三平台 2

 

标准化后的密度函数

北京快三平台 3

北京快三平台 4

正态分布曲线

正态分布曲线

正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。2002年以前去过德国的兄弟们还会发现,德国1991年至2001年间发行的的一款10马克的纸币上印着高斯(Carl Friedrich Gauss, 1777-1855)的头像和正态密度曲线,而1977年东德发行的20马克的可流通纪念钢镚上,也印着正态分布曲线和高斯的名字。正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。

正态分布通常又称为高斯分布,其重要作用是使用在误差分析上

北京快三平台 5 北京快三平台 6   北京快三平台 7
德国马克和纪念币上的高斯头像和正态分布曲线

对于有误差的测量数据,多次测量取平均是一种比较好的做法;描述如下,我们假设想估计的量是b0,b1...bp,另外有若干可以测量的量x1,...xp,y,这些量之间存在线性关系

正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。我们在本科学习数理统计的时候,课本一上来介绍正态分布就给出分布密度函数,却从来不说明这个密度函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。直到我读研究生的时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。

北京快三平台 8

正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。

观测变量的线性假设

 

如何通过多组观测数据求解出参数b?欧拉和拉普拉斯采用的都是求解线性方程组的方法

2. 邂逅,正态曲线的首次发现

北京快三平台 9

第一个故事和概率论的发展密切相关,主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不过大家应该都应该很熟悉这个名字,因为我们在高中数学学复数的时候都学过棣莫弗公式

线性方程组

(cosθ+isinθ)n=cos(nθ)+isin(nθ).

但是面临的一个问题是,有n组观测数据,p+1个变量,如果n>p+1,则无法求解。

而棣莫弗所写的《机遇论》(The doctrine of chances)是概率论发展历史中很重要的一本书。牛顿对棣莫弗十分欣赏,遇到学生向他请教概率方面的问题时,他就说:“这样的问题应该去找棣莫弗,他对这些问题的研究比我深入得多。”

因为存在这样的矛盾,因此采用最小二乘法来解决,其基本思想就是认为测量中有误差,所以所有方程的累积误差为

 

北京快三平台 10

北京快三平台 11北京快三平台 12
棣莫弗和拉普拉斯

最小二乘公式

古典概率论发源于赌博,惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡(Blaise Pascal, 1623-1662)、费马(Pierre de Fermat, 1601-1665)、雅可比·贝努利(Jacob Bernoulli, 1654-1705)都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望 (Expectation), 就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。

我们求解出导致累积误差最小的参数即可。

有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的问题:A、B 两人在赌场里赌博,A、B各自的获胜概率是p,q=1−p, 赌 n 局。两人约定:若 A 赢的局数 X>np, 则 A 付给赌场 X−np 元;若 X<np,则B 付给赌场 np−X 元。 问赌场挣钱的期望值是多少。

北京快三平台 13

问题并不复杂, 本质上是一个二项分布,若 np 为整数,棣莫弗求出最后的理论结果是

线性回归模型

2npqb(n,p,np)

最小二乘法的优良性作了几点说明:

其中 b(n,p,i)=(ni)piqn−i 是常见的二项概率。 但是对具体的 n, 因为其中的二项公式中有组合数,要把这个理论结果实际计算出数值结果可不是件容易的事, 这就驱动棣莫弗寻找近似计算的方法。

1. 最小二乘法使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位

 

  1. 计算中只要求偏导后求解线性方程组,计算过程明确便捷

  2. 最小二乘可以导出算术平均值作为估计值

与此相关联的另一个问题,是遵从二项分布的随机变量 X∼B(n,p), 求X 落在二项分布中心点一定范围的概率 Pd=P(|X–np|≤d)。

单说最小二乘本身是一个代数方法,虽然可以导出最优解,对于解的误差有多大?无法给出有效分析,高斯把最小二乘法和正态分布联系在了一起,并使得正态分布在统计误差分析中确立了自己的地位。

对于 p=1/2 的情形, 棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸运的是棣莫弗和斯特林(James Stirling, 1692-1770)处在同一个时代, 而且二人之间有联系,斯特林公式是在数学分析中必学的一个重要公式

------寻找随机误差分布规律

n!≈2πn−−−√(ne)n.

经验(算术平均可以消除误差,提高精度)---问题是随机误差服从什么分布?伽利略说1.误差是对称分布的;2. 大的误差出现的频率低,小的误差出现频率高

 

拉普拉斯加入

事实上斯特林公式的雏形是棣莫弗最先得到的,但斯特林改进了这个公式,改进的结果为棣莫弗所用。1733 年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑 n 是偶数的情形,二项概率为

北京快三平台 14

b(n,12,i)=(ni)(12)n

拉普拉斯的误差态分布曲线

以下把b(n,12,i)简记为b(i), 通过斯特林公式做一些简单的计算容易得到,

北京快三平台 15

b(n2)≈2πn−−−√,

拉普拉斯误差分布函数

b(n2+d)b(n2)≈e−2d2n,

高斯猜想

于是有

误差分布导出的极大似然估计=算术平均值

b(n2+d)≈22πn−−−√e−2d2n.

那么正态分布就由极大似然估计推出,基于这个误差分布函数对最小二乘法给出了一个非常漂亮的解释。对于最小二乘法中的每个误差ei服从正态分布,那么对于误差e1,e2,...en的联合概率分布为

使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到

北京快三平台 16

P(∣∣∣Xn–12∣∣∣≤cn−−√)=≈=≈∑−cn√≤i≤cn√b(n2+i)∑−cn√≤i≤cn√22πn−−−√e−2i2n∑−2c≤2in√≤2c12π−−√e−12(2in√)22n−−√∫2c−2c12π−−√e−x2/2dx.(1)

误差联合概率分布

 

要使这个概率最大,那么就是求误差平方和最小。因此,高斯所拓展的最小二乘法就称为了19世纪统计学的重要成就。相当于18世纪数学上的微分学。

看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本上学到的一个重要结论:二项分布的极限分布是正态分布。

而我们熟知的公式实际是由二阶微分方程推导所得出

以上只是讨论了 p=1/2 的情形, 棣莫弗也对 p≠1/2做了一些计算,后来拉普拉斯对 p≠1/2 的情况做了更多的分析,并把二项分布的正态近似推广到了任意 p 的情况。 这是第一次正态密度函数被数学家刻画出来,而且是以二项分布的极限分布的形式被推导出来的。 熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。

-------正态分布与最大熵

[棣莫弗-拉普拉斯中心极限定理]设随机变量 Xn(n=1,2,⋯) 服从参数为 n,p 的二项分布,则对任意的 x, 恒有

概率分布熵

limn→∞P(Xn–npnp(1−p)−−−−−−−−√≤x)=∫x−∞12π−−√e−t22dt.

北京快三平台 17

 

p(x)概率分布的熵

我们在大学学习数理统计的时候,学习的过程都是先学习正态分布,然后才学习中心极限定理。而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上很漂亮,但是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》之后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本编排的顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA 双螺旋结构的发现者之一詹姆斯·沃森(James D. Watson, 1928-) 在他的名著《DNA 双螺旋》序言中说:“ Science seldom proceeds in the straightforward logical manner imagined by outsiders. (科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。)”
棣莫弗给出他的发现后40年(大约是1770年), 拉普拉斯建立了中心极限定理较一般的形式,中心极限定理随后又被其他数学家们推广到了其它任意分布的情形,而不限于二项分布。后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候, 其极限分布都有正态的形式, 这构成了数理统计学中大样本理论的基础。

均值μ是一阶原点矩,方差是二阶原点矩。因此熵的最大的概率分布p(x|μ,方差)就是正态分布

棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗 不是个统计学家,从未从统计学的角度去考虑其工作的意义。 正态分布(当时也没有被命名为正态分布) 在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名 棣莫弗分布的重要原因。 那高斯做了啥工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。

因此最大熵的分布就是正态分布。正态分布熵的大小,取决于方差的大小。熵的大小反应概率分布中的信息量,而正态分布的形态是由方差所决定。因此信息量与方差有着重要关系

3. 最小二乘法,数据分析的瑞士军刀

----拉普拉斯中心极限定理

第二个故事的主角是欧拉(Leonhard Euler, 1707-1783)、拉普拉斯、勒让德 (Adrien-Marie Legendre, 1752–1833) 和高斯, 故事发生的时间是18世纪中到19世纪初。17、18 世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题,几个典型的问题如下:

设X1,X2,...,Xn独立同分布,且具有有限均值μ和方差,则在n->无穷

  • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
  • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
  • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

北京快三平台 18

这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;17、18世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取算术平均是比较好的处理方法。虽然缺乏理论上的论证,也不断的受到一些人的质疑,取算术平均作为一种异常直观的方式,已经被使用了千百年, 在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法。

中心极限定理

以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些问题都可以用如下数学模型描述:我们想估计的量是 β0,⋯,βp, 另有若干个可以测量的量 x1,⋯,xp,y, 这些量之间有线性关系

北京快三平台 19

y=β0+β1x1+⋯+βpxp

无数的分布在线性加和下趋近于正态分布

如何通过多组观测数据求解出参数β0,⋯,βp呢? 欧拉和拉普拉斯采用的的方法都是求解如下线性方程组

----统计分析和误差分析是两种不同的概念

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪y1=β0+β1x11+⋯+βpxp1y2=β0+β1x12+⋯+βpxp2⋮yn=β0+β1x1n+⋯+βpxpn.(2)

统计分析--对不同对象的测量

但是面临的一个问题是,有 n 组观测数据,p+1 个变量, 如果 n>p+1, 则得到的线性矛盾方程组,无法直接求解。 所以欧拉和拉普拉斯采用的方法都是通过对数据的一定的观察,把n个线性方程分为 p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化, 无法形成统一处理这一类问题的通用解决框架。

误差分析--对同一对象的多次测量

 

把统计和概率论联系在一起-----正态分布对于统计数据的拟合

以上求解线性矛盾方程的问题在现在的本科生看来都不困难,这就是统计学中的线性回归问题,直接用最小二乘法就解决了。可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为

北京快三平台 20

累积误差 = ∑( 观测值 – 理论值 )2

高尔顿钉版证明当n趋近于无穷二项分布趋近于正态分布

我们求解出导致累积误差最小的参数

----20世纪的三大分布卡方分布、t分布和f分布

β^==argminβ∑i=1ne2iargminβ∑i=1n[yi−(β0+β1x1i+⋯+βpxpi)]2.(3)

人工实验条件下所得数据的统计分析问题,逐渐被人们重视,由于实验数据量有限,依赖于正态分布的方法开始遭到质疑

 

在这个背景下,统计学三大分布卡方分布,t分布,F分布开始登上历史舞台(英国三大数理统计学家)

北京快三平台 21

---Pearson

勒让德

Pearson进一步推导了卡方分布,最早的提出者是物理学家推导空气分子的运动速度,发现在三个坐标轴上分别呈正态分布,而分子运动速度的平方v^2符合自由度为3的卡方分布。Pearson的假设检验

勒让德在论文中对最小二乘法的优良性做了几点说明:

北京快三平台 22

  1. 最小二乘法使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位;
  2. 计算中只要求偏导后求解线性方程组,计算过程明确便捷;
  3. 最小二乘法可以导出算术平均值作为估计值。

卡方分布

对于最后一点,推理如下:假设真值为 θ, x1,⋯,xn为n次测量值, 每次测量的误差为ei=xi–θ,按最小二乘法,误差累积为

----t分布

L(θ)=∑i=1ne2i=∑i=1n(xi–θ)2

戈塞特提出了样本均值与标准差比值的分布

求解θ 使得 L(θ)达到最小,正好是算术平均 x¯=∑ni=1xin。

北京快三平台 23

 

t分布

由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘法的一个特例,所以从另一个角度说明了最小二乘法的优良性,使我们对最小二乘法更加有信心。

---F分布 fisher

最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809 年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘法进行计算,准确的预测了谷神星的位置。

极大似然估计,X和Y分别服从卡方分布

扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自的给出了造刀的方法,而且把最小二乘这把刀的刀刃磨得无比锋利,把最小二乘法打造成了一把瑞士军刀。高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统计误差分析中确立了自己的地位,否则正态分布就不会被称为高斯分布了。 那高斯这位神人是如何把正态分布引入到误差分析之中,打造最小二乘法这把瑞士军刀的呢?

北京快三平台 24

4. 众里寻她千百度,误差分布曲线的确立

F分布

第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容是寻找随机误差分布的规律。

回归正态分布

天文学是第一个被测量误差困扰的学科,从古代至18世纪天文学一直是应用数学最发达的领域,到18世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百来来的数据使用经验说明算术平均能够消除误差,提高精度。算术平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?

  1. 为什么正态分布被如此广泛地使用?

  2. 为什么正态分布在实践使用中非常成功?

伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

Jaynes指出,正态分布在实践中成功地被广泛应用,主要是因为正态分布在数学方面具有多种稳定性质,这些性质包括:

  1. 观测数据存在误差
  2. 误差是对称分布的;
  3. 大的误差出现频率低,小的误差出现频率高。
  1. 两个正态分布密度的乘积还是正态分布

用数学的语言描述,也就是说误差分布的密度函数 f(x) 关于0对称分布,概率密度随 |x| 增加而减小,这两个定性的描述都很符合常识。

2. 两个正态分布密度的卷积还是正态分布,也就是两个正态分布的和还是正态分布

许多天文学家和数学家开始了寻找误差分布曲线的尝试。 天文学家辛普森(Thomas Simpson, 1710-1761) 先走出了有意义的一步。设真值为 θ, x1,⋯,xn 为n次测量值, 每次测量的误差为ei=xi–θ,若用算术平均 x¯=∑ni=1xin去估计θ, 其误差为 e¯=∑ni=1ein。 辛普森证明了, 对于如下的一个概率分布,

  1. 正态分布的傅里叶变换还是正态分布

  2. 中心极限定理保证了多个随机变量的求和效应将导致正态分布效应

  3. 正态分布和其他具有相同方差的其他分布相比,具有最大熵

北京快三平台 25

前三个性质保证正态分布的形态稳定。后两个性质说明其他分布在各种操作下容易越来越接近正态分布

辛普森的误差分布曲线

正态分布具有最大熵性质,所以任何一个对指定概率分布的操作,如果该操作保持方差大小,却减少已知知识,该操作不可避免地增加概率分布的信息熵,导致概率分布向正态分布靠近。

有如下结论

正态分布还有一个经常使用的原因正是由于它的最大熵性质。在很多时候我们没有任何外界知识知道数据的真实分布是什么,但是均值和方差往往是稳定的,我们能从数据中获取到比较好的知识就是均值和方差,除此之外没有其他更加有用的信息量。因此按照最大熵原理,在给定知识的限制下,选择熵最大的概率分布。

P(|e¯|<x)≥P(|ei|<x).

北京快三平台 26

北京快三平台,也就是说,|e¯| 相比于|ei|取小值的机会更大。 辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

正态分布的一些神奇的数学性质

 

北京快三平台 27

从 1772-1774 年, 拉普拉斯也加入到了寻找误差分布密度函数的队伍中。拉普拉斯假定误差分布密度函数f(x)对称且满足

−f′(x)=mf(x)

由此可求得分布密度函数为

f(x)=m2e−m|x|.(4)

这个概率密度函数现在被称为拉普拉斯分布。

 

北京快三平台 28

 

拉普拉斯的误差分布曲线

以该函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布密度函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。

拉普拉斯可是概率论的大牛,写过在概率发展历史中极有影响力的《分析概率论》,不过以我的数学审美,实在无法理解拉普拉斯这样的牛人怎么找了一个零点不可导的函数作为误差的分布密度函数,拉普拉斯最终还是没能搞定误差分布的问题。

现在轮到高斯登场了,高斯在数学史中的地位极高,年轻的时候号称数学王子,后来被称为数学家中的老狐狸,数学家阿贝尔 (Niels Henrik Abel, 1802-1829) 对他的评论是 :“高斯像一只狐狸,用尾巴将沙地上的足迹抹去(He is like the fox, who effaces his tracks in the sand with his tail) 。” 我们的数学大师陈省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和庞加莱(Jules Henri Poincaré, 1854-1912)称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 在数学家中既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的顶”天“立”地“的人物,它既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。 在误差分布的处理中,高斯以极其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。

高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家朱塞普·皮亚齐 (Giuseppe Piazzi, 1746-1826)发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了谷神星的轨道,并预言了他在夜空中出现的时间和位置。 1801年12月31 日夜,德国天文爱好者奥伯斯(Heinrich Olbers, 1758-1840),在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

设真值为 θ, x1,⋯,xn为n次独立测量值, 每次测量的误差为ei=xi–θ,假设误差ei的密度函数为 f(e), 则测量值的联合概率为n个误差的联合概率,记为

L(θ)=L(θ;x1,⋯,xn)=f(e1)⋯f(en)=f(x1−θ)⋯f(xn−θ)

但是高斯不采用贝叶斯的推理方式,而是直接取使L(θ)达到最大值的 θ^=θ^(x1,⋯,xn) 作为θ的估计值,即

θ^=argmaxθL(θ).

现在我们把L(θ) 称为样本的似然函数,而得到的估计值θ^ 称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家费希尔系统的发展成为参数估计中的极大似然估计理论。

 

数学家波利亚(George Pólya, 1887-1985)说过:“要成为一个好的数学家,……,你必须首先是一个好的猜想家(To be a good mathematician,…, you must be a good guesser)。”历史上一流的数学家都是伟大的猜想家。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:

误差分布导出的极大似然估计 = 算术平均值

然后高斯去找误差密度函数 f 以迎合这一点。即寻找这样的概率分布密度函数 f, 使得极大似然估计正好是算术平均 θ^=x¯。而高斯应用数学技巧求解这个函数f, 高斯证明(证明不难,后续给出),所有的概率密度函数中,唯一满足这个性质的就是

f(x)=12π−−√σe−x22σ2

瞧,正态分布的密度函数 N(0,σ2) 被高斯他老人家给解出来了!

 

进一步,高斯基于这个误差分布的密度函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差 ei, 由于误差服从概率分布 N(0,σ2), 则(e1,⋯,en) 的概率为

1(2π−−√σ)nexp{−12σ2∑i=1ne2i}.

要使得这个概率最大,必须使得∑ni=1e2i 取最小值,这正好就是最小二乘法的要求。

 

高斯所拓展的最小二乘法成为了19世纪统计学的最重要成就,它在19世纪统计学的重要性就相当于18世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德1805年给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。高斯在数学上的贡献特多,去世前他是要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的分量。

本文由北京快三发布于雕刻,转载请注明出处:正态分布的前世今生(上)

关键词:

上一篇:菜鸟学四轴控制器之2:逐点比较法

下一篇:没有了