友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!阅读过程发现任何错误请告诉我们,谢谢!! 报告错误
狗狗书籍 返回本书目录 我的书架 我的书签 TXT全本下载 进入书吧 加入书签

女士品茶-第7章

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



可以用所知的泊松分布(Poisson distribution )来描述,这并不是K?皮尔逊偏斜分布家族中的一种概率分布。事实上,它是一种只有1个(而不是4个)参数的特殊分布。
确定了样本中的活酵母细胞数服从泊松分布,戈塞特就能够设计规则和测量方法,从而得到对酵母细胞浓度更为精确的测量。用戈塞特的方法,吉尼斯能够生产质量更稳定的啤酒。

“学生”的诞生
戈塞特想找一份适合的期刊发表这个结果,泊松分布(或相应的公式)已经被发现100多年了,过去一直试图在现实生活中寻找实例,其中之一,便是计量普鲁士军队中被马踏死的士兵人数。在酵母细胞计量中,戈塞特有一个清楚的实例,还有对统计分布新观念的重要应用。然而,这违背了公司不准许雇员发表文章的政策。几年前,吉尼斯一位优秀的酿造师写了一篇文章,其中泄露了他们某个酿造过程的秘密成份。为了避免进一步损失,吉尼斯禁止它的雇员发表文章。
戈塞特成了当时《生物统计》编辑之一的K?皮尔逊的好朋友,而K?皮尔逊对戈塞特的数学能力印象很深。1906年,戈塞特说服了他的老板,数学的新思想对啤酒公司是很有用的,并到高尔顿生物统计室在K?皮尔逊门下脱产学习一年。这之前两年,当戈塞特描述他处理酵母的结果时,K?皮尔逊急于将之付印于他的期刊。他们决定用匿名的方式发表文章,于是,戈塞特的首次发现是仅是以“学生”的名义发表的。
在其后30年中,“学生”写了一系列极为重要的论文,几乎所有的都发表在《生物统计》上。从某些方面看,吉尼斯家族已经发现了他们“亲爱的戈塞特先生”违反了公司的规定,一直私下里撰写并发表科学论文。“学生”的数学活动大多是在家里进行,并且是在正常的工作时间之外。戈塞特在公司升迁到了负更多责任的位置,这表明他的副业并没有使吉尼斯公司受损。有这样一种不足为凭的说法:吉尼斯家族第一次知道这件事是在1937年,戈塞特突然死于心脏病,他数学界的朋友与吉尼斯公司探讨,想帮助支付其论文集的印刷成本。不管这事真实与否,美国统计学家哈罗德?霍特林(Harold Hotelling)的回忆录里清楚地记载,霍特林在20世纪30年代后期要与“学生”会谈,安排是秘密的,带有间谍小说的各种情节。这表明“学生”身份的真正确认,对吉尼斯公司仍是个秘密。“学生”在《生物统计》发表的论文涉及理论和实践的尖端问题,戈塞特将非常实际的问题带入有难度的公式,又把结论带回现实实践,后来者便照此办理。
尽管有很高的成就,戈塞特仍是个谦逊的人。在他的信中,人们经常可以发现这样的字眼:“我的研究只是提供了粗浅的想法”;或者,当他的某些发现被给予过多的荣誉,他会说:“费歇尔实际上已经能完成了整个数学结构。”在人们的记忆中,戈塞特是一个和善的、体贴的同事,很在意别人的情感。他去世的时候61岁,离开了他的妻子马乔里(Majory)(一个精力充沛的运动员,曾经担任英国女子曲棍球队的队长)、一个儿子、两个女儿和一个孙子,当时他的父母还健在。

“学生”的t检验
如果不算别的,所有的科学家都受惠于戈塞特的一篇短文,该文的题目是“平均数的可能误差”(The Probable Error of the Meam),1908年发表在《生物统计》上。是费歇尔点出这篇杰出论文的一般性意义。对戈塞特来说,有一个特定的问题需要解决,一到晚上,他就习惯性地带着耐心和小心投入于这个问题。发现了结论,他就用其它资料来检查,重新验证他的结果,努力去确认是否遗漏了什么细微的差别,考虑他必须设定哪些假设,并一再重复计算自己的发现。他提前采用了现代计算机基础上才出现的蒙特卡罗技术(Monte Carlo techniques);这是一种一再模拟的数学模型,以确定相关数据的概率分布。然而,当时他没有计算机,只能不辞辛苦地加总数据,从上百个样本中计算平均数,并绘制所得出频率的图表,所有这些都靠手工完成。
戈塞特所专注的特定问题是小样本(small sample)问题。K?皮尔逊计算了某一分布的4个参数,这是在单一样本就积累了上千个测量数据的基础上完成的,因为使用了大样本,他设定所得到的参数估计是正确的。费歇尔要证明他的错误。根据戈塞特的经验,科学家很少能三八线以有如此大的样本,更为典型的实验通常能够看到10到20个观测数据,他还理解到,这种现象在所有的学科中都很普遍。在一封给K?皮尔逊的信中,他写道:如果我是你遇到的用小样本工作的唯一一人,那你太特异了,在这个题目上我与斯特拉顿(Stratton)(剑桥大学的一位研究员)相伴,他曾经用4个样本来做说明。
K?皮尔逊所有的工作都假定:样本足够大,以至于确定参数可以没有误差。戈塞特设问:如果是小样本会怎么样?我们将如何处理自己的计算中肯定会出现的随机误差?
晚间,戈塞特坐在自己的餐桌旁,取出一小组数据,算出平均值和标准差估计值,再将二者相除,并将结果绘在图纸上。他发现这个比率与K?皮尔逊的四个参数相关,并与K?皮尔逊的偏斜分布系列中的某一分布相配。他的伟大发现在于:你不必知道原始分布的4个参数的确切值。前两个参数估计值的比率有一个可以制表的概率分布,不管数据从哪里来,或者标准差的真实值是多少,计算这两个样本估计值的比率,你就可以得到一个已知的分布。
正如弗雷德里克?莫斯特勒(Frederick Mosteller)和约翰?图基(John Tukey)所指出的那样,没有这一发现,统计分析注定要使用无限次的回归,没有“学生”的t检验 (这是该发现后来的称谓),分析者将不得不估计观测数据的4个参数,再估计这4个参数估计值的4个参数,接着估计4个新估计值的4个参数……这样继续下去,没有机会得到最终的结果。戈塞特表明,分析者可以在第一步就停止这种估计。
戈塞特的工作有一个基本的假设,即原始测量值服从正态分布。多年以来,科学家使用着“学生”的t检验,许多人渐渐相信,并不需要这项假设。他们经常发现:不管原始测量是否服从正态分布,“学生”的t检验都有相同的分布。在1967年,斯坦福大学(Stanford University)的布拉德利?埃弗龙(Bradley Efron)证明了这一点,更确切地说,他发现了不需要戈塞特假设的一般条件。
随着“学生”t检验的发展,我们不知不觉地习惯于统计分布理论的应用,这一理论在科学界广为流传,相伴而来的是更深层次的哲学问题,这就是我们所说的“假设检验”(hypothesis tests)或“显著性检验”(significance tests)的使用。后面我们会剖析这个问题,现在我们只想强调:“学生”提供了几乎每个人都使用的科学工具,尽管没有多少人真正理解它。
与此同时,“可爱的戈塞特先生”成了两个长期不和的超级天才——K?皮尔逊和费歇尔之间的中间人。尽管他经常对K?皮尔逊抱怨他看不懂费歇尔写给他的东西,他还是保持了与两个人的友谊。他与费歇尔的友谊开始于费氏在剑桥大学读本科的时候,那是在1912年,费歇尔刚刚成为剑桥大学数学学位甲等及格者(最高的数学荣誉),他的天文学导师 介绍两个人认识。当时费歇尔正在研究一个天文学问题,他写了一篇论文,在其中他重新发现“学生”在1908年得到的结果。年轻的费歇尔显然不大知晓以前戈塞特所做的工作。
在费歇尔给戈塞特看的这篇论文中,有一个小错误被戈塞特指了出来。当戈塞特回家的时候,他发现费歇尔写的两大页数学论证正等着他。这个年轻人把自己原先的工作又做了一遍,并加以扩充,还批评了戈塞特所犯的一个错误。戈塞特在给K?皮尔逊的信中写道:“附上一封信,它证明了我关于“学生”t检验的频率分布公式,您是否介意替我看一下。即使我可以理解,超过三维空间我还是觉着不自在。”费歇尔用多维几何证明了戈塞特的成果。
在这封信中,戈塞特说明了自己的如何到剑桥去与朋友会面,而这个朋友恰巧在冈维尔与凯厄斯学院(Gonville and Caius College),是费歇尔的导师,他如何被介绍给这位22岁的学生。他接着写道:“费歇尔这小子写了一篇论文,提
返回目录 上一页 下一页 回到顶部 0 0
未阅读完?加入书签已便下次继续阅读!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!