按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
方式处理相邻的地块。
审查工作没有再深入进行下去就结束了。那天傍晚,他的朋友告诉他,委员会已断定他不是间谍。他们认为他太率真了,透明得一眼就可以看穿,或许真是如她所说,他是一个头脑单纯、只关心他的实验的科学家。
其后,布利斯在列宁格勒植物研究所工作了几个月。他再也没有任何顶头上司了,他自己认为怎么做最好就怎么做。但是,他必须加入由实验室工作人员组成的工会组织,当时,每个在俄国工作的人都必须加入某个由政府控制的工会组织。除了这一点规定之外,他们就不管他了。在20世纪50年代,美国国务院还曾因为他一度属于一个共产党的组织,而拒绝给他签发美国护照。
突然有一天下午,他的女朋友冲进实验室,告诉他:“你必须马上离开。”他坚持说他的实验还没有做完,实验结果还没有详细记录下来,坚持要做完这些才肯离开。女友把布利斯从实验报告堆中拽出来,逼他赶紧穿上外套,告诉他刻不容缓,必须丢弃所有的一切,必须马上离开。刀子守候着催促着他,看着他装好那个小小的提箱,告别了女房东。女友把他送到火车站,临行前坚持要他在安全抵达里加(Riga,现拉脱维亚共和国的首都)时给她打个电话。
到了20世纪60年代,苏联的政治局势有了些微的松动,苏联的科学家重新回到国际科学团体中来。国际统计学会(International Statistical Institute; C?布利斯曾是该学会的会员)在列宁格勒召开了一次国际会议,会议期间,布利斯抽空去探访那些30年代的老朋友,但他们都已故去。他们当中,有的是在大清洗时期被杀,有的死于第二次世界大战,只有他当年的女房东还活着。见面时,他们不停地用各种手势,不断地点头,互致问候,并亲切拥抱,布利斯用英语低声地表达着对她的美好祝福,她则以俄语回应。
第9章 钟形曲线
读完这本书的前八章,你也许会以为统计革命只是发生在英国。从某种意义上说,这倒也是事实,因为最先将统计模型应用于生物研究和农业研究的,的确是在英国,还有丹麦。在费歇尔的影响下,统计学方法很快就传到了美国、印度、澳大利亚和加拿大。正当统计模型的实际应用在说英语的国家和地区推广之际,由于欧洲大陆长期形成的一种数学传统,使得欧洲的数学家正在研究与统计建模有关的理论问题。
这些理论问题中,最为重要的是中心极限定理(central limit theorem)。直到20世纪30年代初,这还是个未经证明的定理,或者说只是一个猜想(conjecture),因为许多人都信其为真,却没有一个人能证明它成立。费歇尔早在研究似然函数值的理论时,就曾假设这个定理是成立的;而回溯到19世纪初,法国数学家皮埃尔?西蒙?拉普拉斯也用这个推论证明了他的最小平方法(method of least squares)。此外,心理学这门新兴科学也是根据中心极限定理开创了智力测验技术与精神疾病量表。
什么是中心极限定理?
大量数据集合的平均数都有一个统计分布,而中心极限定理则阐明,无论初始数据是怎么来的,这个分布都可以用正态概率分布来逼近。这个正态概率分布与拉普拉斯的误差函数(Laplace’s error function)相同,有时也叫做高斯分布(Gaussian distribution),而在浅显通俗的普及书里,也常被称为“钟形曲线”(bellshaped curve)。在18世纪晚期,亚伯拉罕?棣莫弗(Abraham de Moivre)已经证明,由机会博弈(games of chance)所得数字的简单集合符合中心极限定理。然而,在此之后的150年里,对这个猜想的证明没有丝毫的深入进展。
用正态分布来描述大部分数据都是正确有效的,因此,中心极限定理普遍被认为是一个正确的猜想。一旦假定数据服从正态分布,数学上的处理就容易多了。正态分布具备某些非常优良的性质:如果有两个随机变量服从正态分布,那么两变量之和也同样服从正态分布。就一般而言,正态变量的各种类型的和与差也都服从正态分布。因此,由正态随机变量(variate)推演得出的许多统计量,其自身也服从正态分布。
正态分布只有K?皮尔逊四个参数中的两个——平均数和标准差,另外两个参数对称性偏度(symmetry)和峰度(kurtosis)均为零。因此,一量知道了平均数和标准差这两个参数值,其他的一切也就一清二楚了。费歇尔曾指出,由一组数据得出的平均数与标准差的估计值就是他所说的充分估计量(sufficient estimator),因为这两个参数值已经把这些数据中所有的信息都包括在内了。既然这两个参数值已经涵盖了能够从那些原始测量值中揭示出的一切,就根本没有必要去占有任何原始测量值了。如果有足够的测量值可以用来相当精确地估计出平均数与标准差,就不再需要其他任何测量值了,任何为搜集这些数据所做的努力,都不过是浪费时间而已。例如,有两个重要指标服从正态分布,如果你正打算得出这样一个正态分布的那两个参数,那么你只需要收集大约50个测量值就足够了。
正态分布的这种数学上便于处理的特性,使科学家能够构建一个复杂关系模型。只要其基本分布是正态的,费歇尔的似然函数通常就有了以简单代数进行处理的一种形式。即便模型复杂到必须用迭代运算法去解的程度,只要其分布是正态的,用纳恩?莱尔德(Nan Laird)和詹姆斯?韦尔(James Ware)的EM演算法去解,就变得轻而易举了。由于正态分布在数学上的计算处理非常敏捷,因此在建模时,统计学家常常要假定所有的数据都服从正态分布。不过,做这样的假定就不能不援引中心极限定理。
但是,中心极限定理是否成立?说得更准确一点,它在什么条件下成立?
在20世纪20年代和30年代,斯堪的纳维亚地区、德国、法国和苏联的一批数学家,运用20世纪早期发明的一套新的数学工具,倾心于上述这些问题的研究。但就达个时候,整个人类文明都正面临着一场日益迫近的浩劫——那些极权主义的国家的恶性膨胀。
数学家并不有昂贵设备的实验室。在20世纪二三十年代,黑板和粉笔就是一个数学家最具代表性的实验设备。对数学研究而言,用黑板比用纸张更方便,因为数学研究过程的演算总免不了出错,而黑板上的粉笔字很容易擦掉。几乎没有数学家是关起门独自做研究的,只要你是一个数学家,你就必定要同其他的数学家一起讨论自己在研究的问题,你就必定要接受别人对你那些新想法的批评审视。在数学研究过程中太容易出错,或者太容易在研究中隐含着自己毫无察觉而在别人看来却是显而易见的假设。有一个数学家的国际组织,在这个团体中,数学家们书信往来、开会、审阅彼此的论文,经常交换相互的批评和质疑,探究分歧所在。20世纪30年代初期,德国的威廉?费勒(William Feller)和里夏德?冯?米泽斯(Richard von Mises),法国的保罗?利维(Paul Lévy),俄罗斯的安德烈?柯尔莫哥洛夫(Andrei Kolmogorov),斯堪的纳维亚的亚尔?瓦尔德马?林德伯格(Jarl Waldemar Lindeberg)和哈拉尔德?克拉美(Harald Cramer),奥地利的亚伯拉罕?沃尔德(Abraham Wald)和埃尔门?哈特利(Herman Hartley),意大利的圭多?卡斯泰尔诺沃(Guido Castelnuovo),还有许多其他数学家也都在这个团体中,其中不乏那些利用新工具来检验中心极限定理这个猜想的数学家。
然而,这种自由轻松、无拘无束的相互交流不久就将不复存在。它将毁于斯大林的肃反运动、纳粹的种族灭绝和墨索里尼的帝国梦。黑暗笼罩着欧洲。斯大林正把非法操纵的示众式的公开审讯同半夜里的秘密逮捕结合运用到了极致,处决、恐吓和威胁任何一个受到他偏执狂式的无端猜疑的人。起初,希特勒及其罪大恶极有党羽把犹太裔教授从各大学里清洗出去,随后将他们关进惨无人道的集中营。墨索里尼则把国人强行禁锢在他所谓的“组合国”(Corporate state)所划定的各个社会等级中。
“死亡万岁!”
这一猖獗的、反理智主义(antiintellectualism)的极端事件,就发生在西班牙内战时期。当时长枪党的党徒们(以西班牙的法西斯主义者闻名)已经占领了古老的沙拉曼卡大学(University of Salamanc