首页 >> 心理 >> 数学 >> 文章

译者:红色甲壳虫

校对:桔子

小红花等级:4朵

原文:点击这里

书接上文:[小红猪]真理在缩水--现代科学研究方法并不尽善尽美?(上)

到底怎么回事呢?

澳大利亚西澳大学的生物学家利 西蒙斯( Leigh Simmons)提出了他自己的解释。当他跟我讨论他曾经对波动性不对称理论的狂热时,他说:“我曾经对波动性不对称感到非常兴奋。在早期研究中,波动性不对称的效果显得特别显著。” 当时他决定自己也做几项研究,来看看天牛的对称性。“然而不幸的是,我的研究没有发现波动性不对称效应,“西蒙斯说 ,”但最糟糕的是,我的研究结果是“无意义的”,这是很难发表的。因为大多数科学杂志只想要确定的结果。能确定地证伪一个理论是挺轰动的,如果不能证伪,至少要能确定地支持一个理论。 对于西蒙斯来说,窜红并渐渐过气的波动性不对称理论是科学发展模式的一个典型例子:作为一个曾经的学术明星,它既指导又限制了科学研究:当这个学术超新星理论被提出来的时候,论文的同行评议者们总是对阳性结果的作证性论文更宽容。风水轮流转, 曾经的明星理论面临着身败名裂的危机,证其为伪的论文开始受欢迎。

与西蒙斯的解释相似,詹尼恩斯认为递减效应受了“发表偏见”影响。或者说,科学家和学术论文杂志编委会更喜欢佐证性的阳性结果而不是“无意义的结果”。1959年,统计学家西奥多 斯特林( Theodore Sterling)确定了“发表偏见”的影响。 斯特林发现97%的心理学论文都是有显著统计学意义的。显著的统计学意义的解读是:研究数据是偶然获得的概率小于5%。这个测试科学研究是否具有”统计学意义”的方法是由英国数学家 罗纳德 费希尔( Ronald Fisher)在1922年创立的。 费希尔选定了5%作为“统计意义”的阈值。也有人认为5%的选择不过是让笔算更容易些而已。斯特林认为,97%的心理学论文都在证明假设而不是证伪,说明要么是心理学发展走狗屎运要么是学者们只发表阳性结果(译者,显然后者的可能性更大)。最近几年,医药界研究人员认为“发表偏见”极大地影响了临床研究。因为利益驱动的制药公司不愿意发表他们不喜欢的结果:即那些证明药物效力低或者无效的临床研究结果。即使那些利益纷争较少的学科---比如心理学和生态学---也逐渐受到“发表偏见”效应的负面影响。(别忘了,他们也是一群追逐文章数量的悲催团体)

虽然几乎可以确定“发表偏见”推动了递减效应的发展,但它并不能解释一切。比如,某些项目的早期研究结果是阳性的,但并它们从来没被发表过。显然这些数据不会受“发表偏见”影响。还有,斯库勒的悲剧也不能用“发表偏见”解释。曾经研究波动性不对称的阿尔伯塔大学生物学家 理查德 帕尔默( Richard Palmer)怀疑:有人选择性汇报数据,帕尔默的主要证据来自一种统计学工具:应用漏斗图统计分析法。一般而言,某一领域会集中许多研究项目,理论上,这些项目的研究结果是可以按图索骥的:样本量大的研究结果集中在一个数值附近;而样本量较小的研究结果应该是随机分布的,因为它们更容易受到抽样误差影响。如果用一个点代表一个研究项目的结果,并做出一张二维图,这些点的分布有点像一个漏斗。

利用“应用漏斗图”作图分析可以直观地发现“选择性报告”的影响。帕尔默收集了所有的波动性不对称研究,并作“应用漏斗图”分析。他发现小样本量的研究数值分布并不随机,而是向阳性结果的方向剧烈倾斜。帕尔默在其他领域也发现了类似的问题。他说:“当我意识到“选择性报告”在学术界其实很普遍的时候,我的确很沮丧,做为一个研究学者,你知道总会有一些非随机因素或多或少地影响研究过程,但你却不知道这些影响有多大。” 帕尔默最近的一篇综述文章总结了“选择报告”效应在他研究领域的影响:“我们不能逃避这个困境:一些,甚至很多被奉为圭臬的“理论”,其生物学意义其实不过是被过分夸大了;最糟则可能仅仅是重复的主观偏见累计而成的错觉。

帕尔默总结到,“选择性报告”效应并不是科学方法的错误,而是学者们在努力解释数据时犯的一种微妙的过失,或者说,是无心的错觉。斯蒂分 杰伊 古尔德则把这个过程类比为用鞋拔子穿鞋。西蒙斯说“科学测量过程确实很难。比如波动性不对称理论的主要内容是观察动物身体左右两部分间的微小区别,比如一片尾羽毛上毫米大小的差异。进一步说,很多研究者知道他观察的雄性个体基因是好的----因为它经常成功交配----所以他们就假定这个y染色体动物的身体是对称的。所以,波动性不对称理论的研究很容易受主观偏见影响。这么说并不是诚心挑刺,它是人类的自然本性的表现”

这里有一个典型的“选择性报告”的案例:即在不同国家进行的针灸实验。大多数亚洲国家中,针灸的应用和接受度是相当广泛的。而西方国家中,使用针灸还存在争议。这点深深影响了针灸临床实验。1966到1995年间,中国,台湾,日本等地一共进行了47项针灸研究,而且每一个研究都证明针灸是完全有效的。同一时期,美国,瑞典,英国等西方国家举行了94项针灸临床实验,只有56%的研究得到阳性结果,即针灸作为医疗手段是有效果的。按照帕尔默的假设,针灸临床实验结果的分歧佐证了一个推测:科学家总想证明他们喜欢的假设,并且选择性地忽视掉不喜欢的假设。所以说,我们的信念是盲从的

斯坦福大学的流行病学家约翰 ·艾奥尼迪斯(John Ioannidis)认为,选择性报告等主观倾向极大地影响了生物医学研究。他说“这些解释了递减效应广泛发生的原因。其实如果初始的研究给了一个准确的结论就够了,但是现实往往事与愿违。而现在,由于被前期论文结果误导,我们浪费了很多财力在医疗和追踪研究上。”  2005年, 美国医学学会期刊上发表了艾奥尼迪斯的一篇文章。这篇文章总结了三大主流医学杂志中49篇被引用次数最多的临床研究文章。其中45%的文章汇报了阳性结果:说明这些项目研究的治疗方法是有效的。而且这些研究都是随机对照实验--医学研究的葵花宝典---这些研究结果往往会深刻地影响临床治疗,并让某些治疗方法迅速推广。比如更年期妇女的激素替代疗法,日常服用低剂量阿司匹林以预防心脏病和中风。但是, 艾奥尼迪斯得到的数据却有些令人不安:49篇文章中,34%的研究需要重复实验验证,还有41%的研究要么被后来的研究否定要么效应量下降。

那些流行的研究课题现状更糟。比如,最近很流行的一个课题是:男女两性因基因差异导致的疾病风险差异研究。被研究的基因包括增加精神病风险的突变基因和控制高血压的基因。流行病学家 艾奥尼迪斯和他的同事研究了432个课题,发现大多数研究都有严重缺陷。当他调查实验的重复性的时候,他发现 问题更严重:432份研究中,只有1个研究被认为是可重复的,艾奥尼迪斯说:“这并不说明所有的研究都是不对的,但因为这些研究做得那么差,我还是保留意见。”

根据艾奥尼迪斯的说法,主要的原因是很多学者在追求“具有统计学显著意义”的数据,或者说仅仅是为了那些通过统计学显著性检验的数据找科学解释而已,即那些通过罗纳德费希尔( Ronald Fisher)设立的95%置信区间检验的(就是那个5%的底线的另一种说法)。艾奥尼迪斯说:“科学家急切地希望数据能通过统计学显著性检验,所以他们开始用自己的数据做文章,搜肠刮肚地试图找到一些看似有道理的科学解释。”  最近几年,艾奥尼迪斯开始越来越严苛地批判这种风气。他被引用的最多的一篇文章的标题有些挑衅味道:《为什么大多数发表的论文都是假的》。

“选择性报告”其实源于人类的基础认知缺陷:因为我们喜欢被证明正确而