首页 >> 心理 >> 数学 >> 文章

译者:红色甲壳虫

校对:桔子

小红花等级:4朵

原文:点击这里

书接上文:[小红猪]真理在缩水--现代科学研究方法并不尽善尽美?(上)

到底怎么回事呢?

澳大利亚西澳大学的生物学家利 西蒙斯( Leigh Simmons)提出了他自己的解释。当他跟我讨论他曾经对波动性不对称理论的狂热时,他说:“我曾经对波动性不对称感到非常兴奋。在早期研究中,波动性不对称的效果显得特别显著。” 当时他决定自己也做几项研究,来看看天牛的对称性。“然而不幸的是,我的研究没有发现波动性不对称效应,“西蒙斯说 ,”但最糟糕的是,我的研究结果是“无意义的”,这是很难发表的。因为大多数科学杂志只想要确定的结果。能确定地证伪一个理论是挺轰动的,如果不能证伪,至少要能确定地支持一个理论。 对于西蒙斯来说,窜红并渐渐过气的波动性不对称理论是科学发展模式的一个典型例子:作为一个曾经的学术明星,它既指导又限制了科学研究:当这个学术超新星理论被提出来的时候,论文的同行评议者们总是对阳性结果的作证性论文更宽容。风水轮流转, 曾经的明星理论面临着身败名裂的危机,证其为伪的论文开始受欢迎。

与西蒙斯的解释相似,詹尼恩斯认为递减效应受了“发表偏见”影响。或者说,科学家和学术论文杂志编委会更喜欢佐证性的阳性结果而不是“无意义的结果”。1959年,统计学家西奥多 斯特林( Theodore Sterling)确定了“发表偏见”的影响。 斯特林发现97%的心理学论文都是有显著统计学意义的。显著的统计学意义的解读是:研究数据是偶然获得的概率小于5%。这个测试科学研究是否具有”统计学意义”的方法是由英国数学家 罗纳德 费希尔( Ronald Fisher)在1922年创立的。 费希尔选定了5%作为“统计意义”的阈值。也有人认为5%的选择不过是让笔算更容易些而已。斯特林认为,97%的心理学论文都在证明假设而不是证伪,说明要么是心理学发展走狗屎运要么是学者们只发表阳性结果(译者,显然后者的可能性更大)。最近几年,医药界研究人员认为“发表偏见”极大地影响了临床研究。因为利益驱动的制药公司不愿意发表他们不喜欢的结果:即那些证明药物效力低或者无效的临床研究结果。即使那些利益纷争较少的学科---比如心理学和生态学---也逐渐受到“发表偏见”效应的负面影响。(别忘了,他们也是一群追逐文章数量的悲催团体)

虽然几乎可以确定“发表偏见”推动了递减效应的发展,但它并不能解释一切。比如,某些项目的早期研究结果是阳性的,但并它们从来没被发表过。显然这些数据不会受“发表偏见”影响。还有,斯库勒的悲剧也不能用“发表偏见”解释。曾经研究波动性不对称的阿尔伯塔大学生物学家 理查德 帕尔默( Richard Palmer)怀疑:有人选择性汇报数据,帕尔默的主要证据来自一种统计学工具:应用漏斗图统计分析法。一般而言,某一领域会集中许多研究项目,理论上,这些项目的研究结果是可以按图索骥的:样本量大的研究结果集中在一个数值附近;而样本量较小的研究结果应该是随机分布的,因为它们更容易受到抽样误差影响。如果用一个点代表一个研究项目的结果,并做出一张二维图,这些点的分布有点像一个漏斗。

利用“应用漏斗图”作图分析可以直观地发现“选择性报告”的影响。帕尔默收集了所有的波动性不对称研究,并作“应用漏斗图”分析。他发现小样本量的研究数值分布并不随机,而是向阳性结果的方向剧烈倾斜。帕尔默在其他领域也发现了类似的问题。他说:“当我意识到“选择性报告”在学术界其实很普遍的时候,我的确很沮丧,做为一个研究学者,你知道总会有一些非随机因素或多或少地影响研究过程,但你却不知道这些影响有多大。” 帕尔默最近的一篇综述文章总结了“选择报告”效应在他研究领域的影响:“我们不能逃避这个困境:一些,甚至很多被奉为圭臬的“理论”,其生物学意义其实不过是被过分夸大了;最糟则可能仅仅是重复的主观偏见累计而成的错觉。

帕尔默总结到,“选择性报告”效应并不是科学方法的错误,而是学者们在努力解释数据时犯的一种微妙的过失,或者说,是无心的错觉。斯蒂分 杰伊 古尔德则把这个过程类比为用鞋拔子穿鞋。西蒙斯说“科学测量过程确实很难。比如波动性不对称理论的主要内容是观察动物身体左右两部分间的微小区别,比如一片尾羽毛上毫米大小的差异。进一步说,很多研究者知道他观察的雄性个体基因是好的----因为它经常成功交配----所以他们就假定这个y染色体动物的身体是对称的。所以,波动性不对称理论的研究很容易受主观偏见影响。这么说并不是诚心挑刺,它是人类的自然本性的表现”

这里有一个典型的“选择性报告”的案例:即在不同国家进行的针灸实验。大多数亚洲国家中,针灸的应用和接受度是相当广泛的。而西方国家中,使用针灸还存在争议。这点深深影响了针灸临床实验。1966到1995年间,中国,台湾,日本等地一共进行了47项针灸研究,而且每一个研究都证明针灸是完全有效的。同一时期,美国,瑞典,英国等西方国家举行了94项针灸临床实验,只有56%的研究得到阳性结果,即针灸作为医疗手段是有效果的。按照帕尔默的假设,针灸临床实验结果的分歧佐证了一个推测:科学家总想证明他们喜欢的假设,并且选择性地忽视掉不喜欢的假设。所以说,我们的信念是盲从的

斯坦福大学的流行病学家约翰 ·艾奥尼迪斯(John Ioannidis)认为,选择性报告等主观倾向极大地影响了生物医学研究。他说“这些解释了递减效应广泛发生的原因。其实如果初始的研究给了一个准确的结论就够了,但是现实往往事与愿违。而现在,由于被前期论文结果误导,我们浪费了很多财力在医疗和追踪研究上。”  2005年, 美国医学学会期刊上发表了艾奥尼迪斯的一篇文章。这篇文章总结了三大主流医学杂志中49篇被引用次数最多的临床研究文章。其中45%的文章汇报了阳性结果:说明这些项目研究的治疗方法是有效的。而且这些研究都是随机对照实验--医学研究的葵花宝典---这些研究结果往往会深刻地影响临床治疗,并让某些治疗方法迅速推广。比如更年期妇女的激素替代疗法,日常服用低剂量阿司匹林以预防心脏病和中风。但是, 艾奥尼迪斯得到的数据却有些令人不安:49篇文章中,34%的研究需要重复实验验证,还有41%的研究要么被后来的研究否定要么效应量下降。

那些流行的研究课题现状更糟。比如,最近很流行的一个课题是:男女两性因基因差异导致的疾病风险差异研究。被研究的基因包括增加精神病风险的突变基因和控制高血压的基因。流行病学家 艾奥尼迪斯和他的同事研究了432个课题,发现大多数研究都有严重缺陷。当他调查实验的重复性的时候,他发现 问题更严重:432份研究中,只有1个研究被认为是可重复的,艾奥尼迪斯说:“这并不说明所有的研究都是不对的,但因为这些研究做得那么差,我还是保留意见。”

根据艾奥尼迪斯的说法,主要的原因是很多学者在追求“具有统计学显著意义”的数据,或者说仅仅是为了那些通过统计学显著性检验的数据找科学解释而已,即那些通过罗纳德费希尔( Ronald Fisher)设立的95%置信区间检验的(就是那个5%的底线的另一种说法)。艾奥尼迪斯说:“科学家急切地希望数据能通过统计学显著性检验,所以他们开始用自己的数据做文章,搜肠刮肚地试图找到一些看似有道理的科学解释。”  最近几年,艾奥尼迪斯开始越来越严苛地批判这种风气。他被引用的最多的一篇文章的标题有些挑衅味道:《为什么大多数发表的论文都是假的》。

“选择性报告”其实源于人类的基础认知缺陷:因为我们喜欢被证明正确而不喜欢被证明错误。 艾奥尼迪斯说:“证明一个假设为真的感觉真的是太好了——特别是当你的职业发展和个人经济条件都与这个新发现有关的时候。这就是为什么,一个假设被系统地证明为伪,你还是能看到一些不到黄河不死心的顽固学究引用早期研究文章的显著性阳性结果,因为他们想相信这个假设是对的。” 比如,现在仍有很多人执着于激素替代疗法或者那些维生素功能的研究。

所以斯库勒认为,发表文章之前学者必须更严格地收集数据。他说,“我们为追踪过去那些不完善的研究和设计缺陷的科研项目浪费了太多时间。我们对重复性验证的纠缠不休,正干扰我们解决真正的问题。” 斯库勒解释说,很少有人尝试去重复研究那些已发表的论文,因为数量太大了。(《自然》杂志说,迄今为止,三分之一的论文从来没有被引用过,更别说被其他重复性验证了)。斯库勒说,“ 我学到的教训是:研究中必须一直很小心。所以,每一个研究者应该提前说明他们的实验设计,比如:将用多少被试,他们的测试项目是什么,有效论证数据应该由什么组成。这样,我们的实验研究才会更透明。”

斯库勒的下一篇论文将建议建立一个开放数据库。这个数据库要求科研人员们概述实验设计并记录所有的数据。斯库勒说,“我认为建立了这个数据库,会提高科学研究工作的门槛,也会让我们更好地判断实验质量,这个平台能最终帮我们解决递减效应造成的问题”。

这些建议可能会减轻“发表偏见”和“选择性报告”的影响,但这些并不能完全消除递减效应。因为科学研究其实更多地被一些人力不可控制的力量影响:比如,不能做到100%纯粹的随机取样研究。目前关于研究中随机和偶然事件的负面影响的研究并不多,现存的相关研究也并没有解决问题。

1990年代,俄勒冈卫生科技大学的生物学家约翰克拉布( John Crabbe)通过实验证明,未知随机因素的确可以颠覆重复性验证的可靠度。约翰克拉布在三个不同的实验室——分别位于美国纽约州的奥尔巴尼,俄勒冈洲的波特兰,加拿大亚伯达省埃德蒙顿市——做了同一系列的实验研究老鼠行为。实验启动之前,克拉布尝试把所有他能想到的变量都调整成一模一样的。比如,老鼠是一个品系的近亲,同一天从同一个供货商出发,它们在一样的环境中长大;老鼠住的盒子底层铺的锯末是同一个牌子;荧光灯的照明量是一样的;每一窝老鼠的数量是一样的;饲料的量和品种也是一样的;接触老鼠时戴的手套是同一个牌子;测试的设备也一样,测试研究的时间都是在早上的同一时间。

这个实验的预期就是每个实验室的独立实验能得到相同的结果,克拉布说:“如果真的有一种实验设计能通过所有的(可信度)检验,那必然将是这次,但事与愿违。”按照实验设计,克拉布给被试老鼠注射了可卡因。老鼠嗑药后会很兴奋,活动量会增加,研究人员测量老鼠活动的距离来衡量活动量,即兴奋程度。实验的结果是:在波特兰嗑药的老鼠比平时多活动了600厘米,而它们在奥尔巴尼的亲戚则多运动了701厘米,但是在加拿大埃德蒙顿市嗑药的老鼠则比正常状态多活动了5000厘米(没错,三个零)。而后续的老鼠焦虑行为实验,也出现了相似的问题。而且这些出入并不能用已知的理论解释:在波特兰实验室中表现得最焦虑的老鼠是一个品系,而在奥尔巴尼确是另一种。

克拉布的实验很不厚道地指明了一点:很多名声一时的数据不过无意义的背景噪音。埃德蒙顿市“药来疯”老鼠的过分活跃并不能证明什么:这组数据不过是一个无意义的离群数据;一个被未知变量所影响的副产物。问题是,这个数据很有可能发表在有声望的杂志上,因为这个结果又惊异又具有“显著的统计学意义”。可以想像,这个数据发表后,很多跟屁虫会出现,然后申请经费,进行后续研究什么的。这可能导致科学上的错误,指不定多少年才会被人发现。

所以说,所谓“递减效应”不过是错觉的递减。卡尔波普爵士(Sir Karl Popper)认为一个确定的实验就可以证伪一条理论,比如伽利略用一个下午就推翻了亚里士多德力学,可现实中的情形却更为复杂。更糟糕的是,很多被多次证伪的假设依然被视为正确的:语言屏蔽效应也许遭遇了递减效应,但它的影响力并没有“被递减”。除了本文开头讨论的第二代抗精神病类药物,递减效应也影响了物理学研究:1969到2001年,物理学家发现中子衰减时的弱耦合比率已经降低了10个标准偏差;万有引力似乎不再“万有”:物理学家曾在美国内华达的沙漠钻深洞研究万有引力,得到的实验数据与理论值有2.5%的偏差。但是,第二代抗精神病药物依然广泛地用于治疗,中子模型也没有变。万有引力理论依然是原来的样子。

这些不正常的结果都展现了经验主义变化多端的一面。尽管一些科学假设最终走向效应量下降或者自我矛盾的死胡同,它们还是被写进了教科书,并左右当今的医疗准则。为什么?因为这些观念看起来是“正确的”。因为它们“有道理”。因为抛弃这些我们的代价会很大。这才是递减效应非常棘手的原因。不是因为递减效应揭露出科研中的人类天性犯下的错误:比如数据被调整,主观偏见影响客观结果(科学家也是人,他们犯这种错误并不奇怪);也不是因为递减效应打破了我们误信的“真理”的光辉。(这种想法可以上溯至科学哲学家托马斯库恩(Thomas Kuhn)对科学概念演化的思考)。递减效应之所以棘手也因为它提醒了学者:想证明一个理论是有多难。我们喜欢假装认为我们的实验证明了真理,事实证明这不过是我们的一厢情愿。真理并不一定会被证明,被证明为真的假设也并不一定是真理。分析实验数据时,我们还是得做出选择:到底该相信什么。

0
为您推荐

31 Responses to “[小红猪]真理在缩水--现代科学研究方法并不尽善尽美?(下)”

  1. ZHX说道:

    好吧,残酷的现实。。。

  2. maokk说道:

    十个医生来看病能给同一个病人开十种不同的药真的不稀奇啊。

  3. syg说道:

    这上下篇分开写就是坑爹啊…上篇写得神乎其神又诡异,结果最后下篇出来原来归根结底还是心理问题…

  4. osirpt说道:

    读着像是 现代医学研究方法并不尽善尽美

  5. 金色葡萄说道:

    所以可以建立更多的一些统计学工具,用来发现以前的假“阳性”结果,这种检出也是可以发文章的,而且估计SCI分还不低。

  6. aptx4869说道:

    是不是应该建立一种机制,专门用来储存一些看起来没有意义的数据记录……就好像弟谷当年所做的一样

  7. 哥特式祷文说道:

    这么说来,是不是应该建立一个叫“科学家心理学”的学科?

  8. viggin说道:

    降低研究人员的论文发表压力,鼓励各大杂志发表一些“结果不是那么漂亮”的论文

  9. wty6891说道:

    微博上的图更给力一些

  10. paradise-x说道:

    其实我在想,上次提到的那个“递减”(即现实并非重复性可验证,事实上效果是随时间而递减的)——可不可以用“熵”来解释???
    ………我记得我学的很浅显的是说“有序的能量一直在减少,转化为无序的能量”

  11. kayee说道:

    哦也曹曹將我來支持你啦!!順便,關於假設和證明,推薦Thomas Kuhn的the structure of scientific revolutions~~~

  12. 发森ads发说道:

    语言屏蔽效应是什么?返回结果只有松鼠会的这篇文章……

  13. 石头说道:

    似乎没有什么地方在挑战现代科学的研究方法(就此文来说,具体是指统计方法)。

    如果是:“科学家只发表阳性结果(译者,显然后者的可能性更大)”,这是学术道德问题。即:该科学家明明见过相反的结果,但故意(或无意)只发表阳性结果。

    如果是:样本量不足,这是统计置信度问题。

    如果以上两点都不是,则证明“重复检验”所需要的假设条件“一切其他条件相同”出了问题。以老鼠嗑药这个例子来说,发表这样的结果更有价值,因为它证明存在一个未知变量,其影响比实验中的控制量更大。

    上集提到的抗抑郁药也类似。如果能排除学术道德问题和统计误差问题,则结果所揭示的是:过去和现在相比,某些变量发生了变化。找出这个变量将是潜在的科学突破。

    • wangxiao7说道:

      有时候未知变量影响了实验结果,例如老鼠嗑药的实验的。
      但找出这个变量并非是一个容易的事情,这个变量可能是天气、纬度、时间、年龄等等,甚至是超出认知的变量。
      如果这个变量超出了认知,人们就认为自己的实验设计已经完美,结论已经明确。
      这是个科学的群体心理学问题,不单单是个体的选择阳性结果、偏见。

  14. 妖道说道:

    我认为对所有事物的不确定行,才是科学的态度。

  15. LADead说道:

    科学不是自然的本身,只是我们认识自然的一种方式,一种看似精确的方式。其实自然界中有很多不确定的事物,所以科学这种死物没有办法真正成为自然的准绳。玛雅人说,2012的冬至是个新纪元的开端,也许我们真的会有那么一天推翻我们现在的认知体系吧!

  16. Not available说道:

    类似的一个证据,关于“发表偏见”,是关于元电荷电荷量的测量。假设它的真值是A,而第一次发表测得的数据是B。可以发现,随着年代的增长,每次发表的元电荷电荷量的值是一直从B缓慢向A转变的,当然也伴随波动。这并不意味着测定方式有了很大的提高,很多时候,科学家们就是忽略了接近A的值,认为那些值是错的,而通过各种方法去得到接近B的值,比如调整仪器、舍弃“不合格”数据等。

  17. 大侨说道:

    大样本,大大样本,更大的样本,会有效减少误差么?

    • Jinnih说道:

      也许样本更大, 更趋于"无意义",而这种无意义是源自于样本过大所产生的平均效应.

  18. ZKL说道:

    统计检验是一门科学,但许多实验的变量还没发觉。比如针刺麻醉对某些敏感的群体合适,有些不敏感的不合符。用统计学语言,应对人群分层。另一案例,有一种药物在实验阶段效果好,在临床使用效果差。后发现分子结构有左旋和右旋之分。有的药效下降,是病菌有了抗药性变异。客观世界是复杂多变的,所以保持质疑的态度,不断深入研究。

  19. Im说道:

    我想起上篇中那个"超感知觉"的实验,他是研究了多少人之后才发现一个神奇的人的。。。那么猜对那么多可能只是一个概率事件。科学研究方法没有出错,有错也是在于研究人员。

  20. Yihui说道:

    看了这两篇文章,写了一篇评论,感兴趣的请移步:
    http://cos.name/2011/07/we-never-know-randomness/

  21. sheldon说道:

    作者翻译的真好!读起来非常舒服

  22. 疯和尚说道:

    我想起了原来读到过一个人用“漏斗”图(他称之为“钟形”图)分析国内的一些中药有效的临床试验,都发现数据分布有“偏岐”。

  23. 周剑南说道:

    文章中所指的科学研究多是需要统计学数据的研究,但有些研究,比如比萨斜塔试验,一次就够了。定性的分析是不是和定量的分析不同呢?

  24. stonechen说道:

    这样看来现象学的反思方法时接近真理的唯一可靠途径了

  25. lovelyzlf说道:

    我们用科学的手段观测到的只是科学本身的结果,并不是自然的本来面目,就像量子塌缩一样,我们在测量并获得结果的同时,也就改变了事物本来的面目

  26. versugw www.kuaipu.com.cn说道:

    快普企业管理软件,快普微信号:kuaipu