友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!阅读过程发现任何错误请告诉我们,谢谢!! 报告错误
狗狗书籍 返回本书目录 我的书架 我的书签 TXT全本下载 进入书吧 加入书签

女士品茶-第26章

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



秃笃冢琑?T?贝叶斯在摆弄条件概率的公式时,忽然有个惊人的发现,这些公式都是内部对称的!
假设有两个事件在一段时期内发生,就像先洗牌,再发出5张扑克牌。我们称这两个事件分别为“前事件”(the events before)和“后事件”(the events after)。以“前事件”为条件讨论“后事件”的概率是有意义的。如果牌没有洗好,当然会影响玩家得到一对A的概率。贝叶斯发现,我们也可以“后事件”为条件计算“前事件”发生的概率。这是没有道理的。就像玩家已经拿到一对A之后,再来确定整副牌里有4张A的概率。或是已知一个病人已患了肺癌,再来计算他是吸烟者的概率。或者是已经知道了有个叫C?A?史密斯的人是唯一得到大奖的人,然后再计算州立彩票游戏公平不公平的概率。
贝叶斯把这些计算结果搁置起来,没有发表。在他死后,这些论文才被发现,而后才被发表出来。从那里起,贝叶斯定理 就困扰着许多统计分析数学家。绝对不是毫无道理,贝叶斯将条件概率倒转过来反倒很有意义。当流行病学家试图想找出某种罕见医学病状的可能原因时,例如雷氏症候群(Reye’s syndrome),他们通常是利用病例控制研究方法(casecontrol study),在这种研究中,他们首先搜集一组患有该病症的病人,然后拿去与控制组的病人做比较,控制组的病人没有患这种疾病,但在其他方面与患有这种疾病的病人类似。于是,流行病学家在已知控制组病人已患有该疾病的条件下,计算某些先前治疗或先前条件导致该病的概率。吸烟对心脏病和肺癌都有影响,就是这样首次被发现的。镇静剂对新生儿畸形的影响,也是从这种病例控制研究中发现的。
直接应用贝叶斯定理,可以把条件概率反转过来,比这更为重要的,是使用贝叶斯定理估计分布的参数。有一种建议,可以把一项分布的参数本身看作是随机的,然后计算与这些参数相关的概率。例如,我们可能想要比较两种癌症治疗方法,并希望得到结论说“我们有95%的把握认为使用治疗方法A会比使用治疗方法B的5年期存活率高”。我们只要应用贝叶斯定理一两次就可以解决这个问题。

关于“逆概率”的问题
有很多年,以这种方式使用贝叶斯定理被认为是一种不适当的作法。当用于参数时,关于概率代表什么涵义有很多质疑。毕竟皮尔逊革命(Pearsonian revolution)的整个基础在于,科学的测量结果本身不再是我们所感兴趣的问题,相反,正如K?皮尔逊所指出的那样,我们所感兴趣的是这些测量结果的概率分布,而科学的调查研究的目的就是要估计出控制这些分布的那些参数值(固定的但却是未知的)。所以,如果这些参数被视为是随机的(而且以观测的测量结果为条件),那么这种方法就不再有这样清楚的意义了。
在20世纪的早些年,统计学家非常谨慎,避免使用人们所说的“逆概率”。有一次在皇家统计学会上,对费歇尔的一篇早期论文进行讨论时,就有人质疑他使用了逆概率,他坚定地为自己辩护,否认这项可怕的指控。在第一篇关于置信区间的论文里,奈曼似乎使用了逆概率的概念,但只是作为一个数学方法,用来得到一个计算结果,而在他的第二篇论文里,他证明不了不用贝叶斯定理也能得到相同的结果。到了20世纪60年代,为种方法的潜在力量与用途已开始吸引越来越多的研究者跟踪研究,这个贝叶斯异论变得越来越受尊重了。到了20世纪末,它已经达到了如此高的接受水平,如今在一些期刊像《统计年报》(Annals of Statistics)和《生物统计》上,几乎半数以上的文章现在都使用贝叶斯方法。不过,贝叶斯方法的应用仍然会经常遭到质疑,尤其是在医学领域。
在解释贝叶斯异论时碰到的一个困难是,目前有好几种不同的分析方法,而这些方法的应用又至少有两种完全不同的哲学基础。长期以来,看上去好像完全不同的思想却经常贴着相同的标签——贝叶斯。后面我将说明贝叶斯异论的两个种理论:贝叶斯层次模型(Bayesian hierarchal model)和个人概率(personal probability)。

贝叶斯层次模型
20世纪70年代早期,由于弗雷德里克?莫斯特勒(Frederidck Mosteller)和大卫?华莱士(David Wallace)早期的工作和贡献,原文分析的统计方法有了很大的进展,他们俩人曾运用统计方法来判定《联邦主义论文集》(Federalist)中一些匿名文章的作者。自1787年,在纽约州带头鼓动通过新的美国宪法期间,詹姆士?麦迪逊(James Madison)、亚力山大?汉密尔顿(Alexander Hamilton)和约翰?杰伊(John Jay)写了大约70篇文章,支持通过宪法。但这些文章都是匿名发表的。19世纪初,汉密尔顿与麦迪逊两人开始确认这些两个人都声称有著作权的论文,其中有12篇文章他们都认为是自己写的 。
在用统计方法对这些署名有争议性的文章进行分析时,莫斯特勒与华莱士找出了几百个无“特定内容”的英文词汇,如“if”、“when”、“because”、“over”、“whilst”、“as”、“and”等。这些字在句子里只有语法上的意义,本身并没有什么特定的含义,这些字的使用主要取决于作者的语言使用习惯。在这上百个没什么特定含义的字里,他们发现,大约有30个字在这两位作者的其他著作中使用频率不同。
例如,麦迪逊使用“upon”这个字的频率,是每千字平均0。23次,但汉密尔顿对这个字的使用频率很高,平均每千字高达3。24次(在12篇署名有争议的文章里,有11篇根本没有用“upon”这个字,而在剩下的那一篇文章中,平均每千字就出现1。1次)。这些平均的频率并不是描述一千字中任何特定组合。这些数值本身并不是整数,这就意味着这些频率并不是在描述任意一个观测的文字序列。这些数值其实是两位不同作者在写作时用字分布的其中一个参数的估计值。
对于某篇文章著作权的争议,所要解决的问题是:这些文章中用词的分布形态,是来自与麦迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分布?这些分布各有各有参数,其中能够定义出各自作品的特定参数各不相同。参数值只能根据他们的论文来估计,而且这些估计可能是错的。因此,要想区分哪个分布可应用在一篇署名有争议的文章上,充满了这种不确定性。
估计这种不确定性水平的一种方法是,这两个人的分布参数的确切值,是来自于描述18世纪晚期所有北美洲有教养的人用英文写作时用字习惯的参数分布。例如,汉密尔顿每千字中用到“in”这个字24次,麦迪逊则是每千字用23次,而同时代的其他作家,使用“in”这个字的频率在每千字22至25次之间。
由于受到当时和当地一般用字分布形态的制约,每个人分布的参数是随机的,并且具有一个概率分布。这样一来,制约汉密尔顿和玫迪逊使用这些无特定含义的字的参数本身也有参数,我们可以称之为“超参数”(hyperparameter)。根据当时和当地其他作者发表的文章来分析,我们就能估计出这些超参数。
英语语言总是随着时间和地域的变化而变化。例如在20世纪的英语文学里,使用in的频率通常是每千字少于20次,这表明从汉密尔顿和麦迪逊的时代到现在的200多年里,英语的用字型态已经稍微有所转变。我们可以把这些定义18世纪北美用字习惯参数分布的越参数,看作是它们本身也有一个相对于所有时间与空间的概率分布。因此,除了用18世纪的北美作品,我们还可以搜集其它地区和其它时期的英语文献,来估计这些超参数的参数,我们可以称这些参数为“超-超参数”(hyperhyperparameter)。
通过重复使用贝叶斯定理,我们就能决定这些参数的分布,然后再决定这些超参数的分布。从原则上来说,我们可以用超-超-超参数求出超-超参数的分布,进而把这种层次分析引向深入,依次类推。但在我们的例子里,显然没有必要进一步分析,以免增添更多的不确定性。利用超参数与超-超参数的估计值,莫斯特勒与华莱士就能算出与下面这个陈述有关的概率:是麦迪逊还是汉密尔顿写了这篇文章。
自20世纪80年代早期以来,贝叶斯层次模型已经成功地解决了许多工程上和生物学上的难题。比如,一些数据看
返回目录 上一页 下一页 回到顶部 0 0
未阅读完?加入书签已便下次继续阅读!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!