按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
第16章 非参数方法
在20世纪40年代,美国氰胺公司的化学家弗兰克?威尔科克森(Frank Wilcoxon)深为一个统计问题所困扰。针对不同化学处理的结果,他采用“学生 ”t检验和费歇尔的方差分析做假设检验,,进行比较。这是当时分析实验数据的标准方法,统计革命已经深入到了科学实验室,有关解释这些假设检验所用统计图表的书,已经摆到了每位科学家的书架上。但是威尔科克森所关心的,是这些方法常常表现为失效的情形。
他进行了一系列的实验,在他看来,这些实验中不同处理的结果显然是并不相同的。但是,有时候t检验显示了统计上的显著性,而有时候却没有。当进行一项化学实验时,常常碰到,在实验程序之初反应发生器(即化学反应进行的地方)并未充分预热,也会碰到某种特殊酶的反应力开始发生变化,结果使得实验结果似乎有误,常常是某个数据要么过大,要么过小。有时可以找到产生异常结果的原因,而有时虽然结果是一个异常值(outlier),显著地不同于其它结果,但又找不到明确的原因。
威尔科克森考察了t检验和方差分析的计算公式,意识到这些极端的异常值显著地影响了结果,导致“学生”t检验统计量的数值比正常情形下的数值更小(一般而言,大的t检验统计量对应着小的P值)。这诱使他从观测值的集合中剔除异常值,用剩下的观测值计算t检验统计。这样一来,假设检验中的数学推导便出了问题。化学家如何才能知道一个数到底是不是异常值呢?必须剔除多少个异常值呢?当异常值被剔除之后,化学家还能继续使用那些基于标准检验统计量的概率图表吗?
弗兰克?威尔科克森着手搜集有关的文献,他确信那些发明统计方法的伟大数学家们早已注意到了这一问题。然而,他没有发现相关的参考文献。威尔科克森认为他找到了一个解决该问题的思路,但这一思路计算非常繁琐,要用到观测数据的组合与排列(前一章已经提到了F?N?大卫的组合数学)。于是,他便着手寻找计算那些组合数的方法。
唉,这实在是太荒唐了!为什么要由一个像威尔科克森那样的化学家去研究这些简单而繁琐的计算方法呢?统计学界早应有人完成了这一工作!他于是又回到统计学文献中去找以前的论文,但他还是没有找到这种论文。他便寄了一篇论文给《生物统计学》(Biometrics)杂志(不要与K?皮尔逊的《生物统计》(Biometrika)混淆),主要是想验证一下自己的数学方法。他并没有想过自己的研究会是一个原创性的工作,还想着审稿人一定知道文中内容早已在哪儿发表过了,从而拒绝他的论文,这样一来,也就等于审稿人告诉了他所需要的那些参考资料。然而,就审稿人和编辑们所知,这是一个原创性的研究,以前没有人思考过这一问题,他的论文在1945年发表了。
威尔科克森和《生物统计学》的编辑们都不知道,一个名叫亨利?B?曼(Henry B。 Mann)的经济学家和俄亥俄州立大学(Ohio State University)一个名叫D?兰塞姆?惠特尼(D。 Ransom Whitney)的统计学研究生都在研究一个相关的问题。他们正试图给统计分布排序,这样一来人们便可以认为,在某种意义上,1940年的工资分布“小于”1944年的工资分布。他们找到了一种排序方法,但要用到一系列简单而繁琐的计数方法。
这促使曼和惠特尼设计了一个检验统计量,该统计量的分布也能用组合数学计算出来,与威尔科克森的计算类型一样。他们在1947年发表了一篇论文,介绍这种新方法,这已经比威尔科克森发表的论文晚了两年。很快便发现,威尔科克森检验(Wilcoxon test)和曼-惠特尼检验(MannWhitney test)密切相关,产生同样大小的P值。但是,这两个检验统计量引出了一些新的东西。直到威尔科克森发表之时,统计学界普遍认为,所有检验统计量都是建立在数据分布的参数估计基础上的。但是新的方法是一种无需估计任何参数的检验方法,仅需要将观测数据的散点图与纯随机分布所预期的情形进行比较,这属于一种非参数检验(nonparametric test )。
由此,统计学在K?皮尔逊一些初步的想法之上迈出了革命性的一步,现在无需使用参数就可以处理数据分布的问题了。在西方,多数人都不知道,其实在20世纪30年代后期,苏联的安德烈?柯尔莫哥洛夫和他的一个学生N?V?斯米尔诺夫(N。 V。 Smirnov)就发展出了一种不同的无需使用参数的分布比较方法。威尔科克森、曼和惠特尼的研究发展了数学研究的一个新领域,将注意力引致了有序秩(ordered ranks)的根本性质上,斯米尔诺夫-柯尔莫哥洛夫的研究成果也很快被纳入其中了。
进一步的发展
一旦在数学研究中出现了一个新的领域,就会有人用不同的方法去思考。在威尔科克森最初的研究后,很快就涌出了许多不同的替代方法。赫尔曼?谢诺弗(Herman Chemoff)和I?理查德?萨维奇(I。 Richard Savage)发现,威尔科克森检验可以看作是次序统计量(ordered statistics)的期望均值,他们还能将非参数检验扩展为关于不同基础分布(different underlying distribution)的一系列检验,都不需要进行参数估计。到了20世纪60年代早期,这类检验(现在被称为“非参数检验”(distributionfree tests)成了最热门的研究课题。一些博士研究生选择该理论中的某些小问题来做学位论文,一些会议专门讨论这种新的理论。威尔科克森也继续进行该领域的研究,提出了组合计算的更为精巧的算法,扩展了检验的应用范围。
1971年,捷克斯洛伐克的雅罗斯拉夫?哈耶克(Jaroslav Hájek)写了一本权威的教科书,书中提出了该领域的一般性理论。他针对所有的非参数检验作了根本性的一般化,将一般化的方法与中心极限定理(the central limit theorem)的林德伯格-利维条件(LindebergLévy conditions)联系起来了。这正是数学研究中常用的方法。从某种意义上说,所有的数学实际上都是相互联系的,但是这些联系的准确性质和用于挖掘这些联系的见识,常常需要很漫长的时间才能显现。哈耶克于1974年去世,年仅48岁。
当弗兰克?威尔科克森试图将其在统计上的研究成果推广应用时,他放弃了最初的化学领域,而是在美国氰氨公司及其勒德勒实验分室(Lederle Labs divison)建立了一个统计服务小组。1960年,他来到了弗罗里达州立大学(Florida State University)的统计系,成为一名倍受尊敬的老师和研究人员,指导了几名博士研究生。当他在1965年去世后,身后的学生和统计创新方法,仍然对统计学产生着重大的影响。
尚未解决的问题
非参数检验的发展促使人们在这一新领域进行了大量的研究。然而,在以前所用的参数方法与非参数方法之间,好像并没有什么明显的联系,因而还有两个问题尚未解决:
1。 若数据具有一个已知的参数分布,如正态分布,这种情况下我们采用非参数分析方法会有多不好?
2。 若数据不太适合采用参数模型(parametric model),那么数据必须偏离参数模型多远时,使用非参数方法才会更优?
1948年,《数理统计学年报》的编辑收到了一篇来自塔斯马尼亚大学(the University of Tasmania)的一位不出名的数学教授的论文,这所学校位于澳大利亚南部的海滨小岛上。这篇杰出的论文一举解决了上述两大难题。那时,埃得温?詹姆斯?乔治?皮特曼(Edwin James Gee Pitman)已经在《皇家统计学期刊》上发表了3篇早期的论文,在《剑桥哲学学会会刊》(the Proceedings of Cambridge Philosophical Society)上发表了一篇论文,回过头去看,后一篇论文奠定了他后续研究的基础,但是它被人们忽略或是遗忘了。除了那4篇论文,在向《数据统计学年报》投稿时,已经52岁的皮特曼没有发表过其它的著作,也没什么名气。
E?J?G?皮特曼于1897年生于澳大利亚的墨尔本。他考入墨尔本大学(the University of Melbourne)念本科后,由于第一读世界大战而中断了学业,服了两年兵役后,他回到学校念完了本科。“那时,”他后来写道:“澳大利亚的大学没有数学方面的研究生院。”一些大学为优秀学生提供奖学金,