首页 >> 数学 >> 文章

去年秋天我和几个朋友在美东地区短暂旅行,期间受一个网友召唤,冲到了麻省理工Media Lab去参观。虽说对于理工科出身的人来说,诸如MIT这种胜地早就通过因特网做过仔细勘探,也对他们在做的很多东西了然于心——比如摆在大楼大厅里、精致程度达到手工级别的一组3D打印玻璃花瓶,在网页上早就看了十遍八遍——但真正出现在眼前时,仍要小小震撼一下,觉得这是我成年以后为数不多的五体投地时刻。记得逛到了三楼(如果没记错的话)时,突然间眼前出现了一排好似黑武士一般的人形模型。确切来说也不像黑武士,因为既没有面具也没有披风,唯一让我想起这个说法的原因是“他们”都用黑色材料做成,而最最奇怪的是“他们”的腿,有点像蹼,并不是完整的脚型。盯了3秒钟之后,我脱口而出:休•赫尔!

不等“导游”开口介绍,我已经兴致勃勃地给同行者介绍起了休•赫尔(Hugh Herr)是何方神圣。当时,《利用业余时间拯救世界》交付译稿已有一阵子,休正是这本书其中写到的一位神奇科学家,此人原是个天才攀岩者,奈何在一次暴风雪中因冻伤失去双腿,康复之后只能靠义肢行走。一般来说,遇上这种事情,倒霉的当事人最好的选择大概也就是努力上电视赚点出场费之类了,但休选择了一条不可思议的路——去做了科学家。在MIT,他纠集了一群人,做出了迄今无人能够超越的增强材料,并在此基础上设计出世界上顶级的替代脚腿。当我问我们的志愿“导游”——一位清华大学的青年男博士:“你在系里见过他吗?”他十分肯定地说:“见过,赫尔经常穿着长裤,健步如飞,没有人能看得出那是义肢,而且因为义肢比人的身体轻,所以他在攀岩上的成绩远胜一般人。”

Hugh-Herr

【休和他那不可思议的义肢】

当然,那天Media Lab大楼里的震撼绝不止这一个:此处,机器人实验室装修得像个外星人呆的地方;橱窗里摆着据说是未来乐器的奇怪造型,你根本想不出乐手怎么拿来演奏;博士“导游”自己做的东西是个表情识别系统,当我们七个人鱼贯而入时,大屏幕上立刻出现了五张笑脸和两张哭脸;最有意思的是,他们系主任每个月都要开例会讲话,但真身从来不出现,直接用全息影像给全系师生训话。

只有了解了这样一些人的存在,你才会真正体会到Smart is sexy是什么意思,体会到一天到晚活在生活大爆炸里是多么爽。但说实话,要了解这些人不是那么简单的一件事,面对Geek科学家们的脑洞与妙想,大多数人都必须经过某种“翻译”,才会恍然大悟他们到底说了些啥,从这个意义上而言,加斯•桑顿姆(Garth Sundem)可以说是一位精于此道的“翻译家”,他通过自己孜孜不倦的采访和录音整理,把Geek们的话翻译成了人话。此人在美国也算得一位畅销作家,著有《极客思维》、《极客统治世界手册》和《大脑糖》等,在Wired 杂志开有两周一期的专栏“GeekDad”,你还可以在TED-Ed 看到他的课程“如何用数学打败一条龙”。在序言“生活是团好乱麻”里面,这位采访了130多位科学家(当然采访归采访,内容并未全部收入)的作者写道:和大家通常所认为的那些在象牙塔里孜孜不倦(就像他们一丝不苟的论文所显示的那样)的脑力劳动者形象不同的是,科学家们热情澎湃并且容易激动,他们对自己专业的爱慕堪比女学生们对贾斯汀•比伯的迷恋。通过这番话我们大致可以理解为,桑顿姆老兄就像狗仔队要努力去发现明星又搬了一座豪宅或新找了个恋人那样,把科学家当作了挖掘对象,所不同的是,当科学家们发现他是多么称职的一位狗仔时,不会像明星一般暴怒,反而会拍拍他的肩膀称赞道:干得好!

Garth Sundem 

加斯•桑顿姆

这本书的标题“利用业余时间拯救世界”来自于其中一篇对卡耐基-梅隆大学的计算机专家路易斯•冯•安的采访,其实关于冯•安的研究,此前我曾经在一个电视纪录片中看到过,这位仁兄是一位具有共产经济先驱气质的研究者,早在好几年前,他就开始琢磨互联网上这些刷屏打游戏的大量人力能拿来做点什么正经事的重大问题,而他也的确找到了解决之道,此人和曼纽尔•博鲁一起发展了一套文本框验证码系统,这东西我们并不陌生,每次在注册新网站或者在论坛发表言论时就会看到的那种,一般来说,它们的出现是为了验证你是人还是机器人,然而冯•安他们换了个思路,把来自一些图书馆的古老文献上扫描下来的图像置入,让你来辨认它们到底是些什么字母——通过这样,可以拯救一大批的濒危文本,要知道,一个识字的你比最好用的光学识别系统软件(OCR)还要好用上很多,更何况你在和世界上成千上万“蒙在鼓里”的人一同迎战。“我们每天会干掉7千万个单词,一年就是几百万本书,大概有7亿5千万个人至少数字化过一个单词。”

是不是很有趣?

而书中真正烧脑的是几个对于数学家的采访,比如《再也不怕耸人听闻的统计学了》一文中,斯坦福大学的基思·德夫林(Keith Devlin)绝对能够用“我有两个孩子,其中一个是星期二出生的男孩子。你认为我有两个儿子的可能性有多大吗?”这种问题及其升级版把你搞晕菜;印第安纳大学布鲁明顿分校的韦恩·温斯顿(Wayne Winston)支招的《怎样赌球?》让我这种从来没有买过足彩的人一口气把欧洲赔率、亚洲赔率和北美赔率研究了个好几天,既兴奋又惶恐,心里也在琢磨着要不要按照里头的窍门去试试运气;同样搞得人心痒不已的还有采访埃默里大学的斯基普·加里波第(Skip Garibaldi)后写成的《赢彩票》……正如作者说过,他迷恋写这本书的感觉,而我,不折不扣也迷恋译这本书的感觉,每翻译完一篇就会觉得,呃,自己好像又比昨天聪明了一点,正在穿越生物、物理、机械、经济……各个学科的奇妙长廊,领略它们那只可意会的美,它让我一次次回到去MIT的那个下午,很久之后仍将如此。

下面这篇文章就是《再也不怕耸人听闻的统计学了》,警告:一段很长(且非常酷)的涉及统计学分析的文字在前方等待,希望大家阅读愉快并领会到作者的精神。

编辑的话:能把一篇质量不错的书评,毫不吝惜的放在“正文”前做导语的,大概算是小庄的一个特点,小庄,要保持哦!

-------------------以下才是正题分割线-------------------

再也不怕耸人听闻的统计学了

节选自《利用业余时间拯救世界

作者:加斯•桑顿姆

翻译:小庄

利用业余时间拯救世界

作为美国国家公共电台的“数学段子手”、世界经济论坛的成员以及斯坦福大学的数学教授,基思·德夫林思考事物的方式会和世界上大多数人都不一样。举例来说,在他的每月专栏“德夫林的天使”中,他引述了接下来的这个问题,最早是由谜题大师加里·弗许(Gary Foshee)提出的 :我有两个孩子,其中一个是星期二出生的男孩子。你认为我有两个儿子的可能性有多大?

这个问题听起来是不是就像在用一堆无关干扰来模糊明显的事实 :由于他另一个孩子是儿子的概率一定是 1/2,所以如果其中一个已确定为儿子,那两个都是儿子的概率不也是 1/2 吗?是啊,就是这样啊。

事实可不是这么回事。

先说没有“星期二”的版本,这个著名问题最初是由极富才华的数学家、难题专家马丁·加德纳(Martin Gardner)在《科学美国人》上提出的。想象一下按照这两个孩子的性别和出生前后顺序做的组合 :儿子—儿子、儿子—女儿、女儿—儿子、女儿—女儿。现在,在加德纳的问题中,你知道至少一个孩子是儿子,所以可以剔除了女儿—女儿组合,只剩下另外三种可能组合 :儿子—儿子,儿子—女儿,女儿—儿子。而这其中两个都是儿子的概率只有 1/3,所以答案不是大家都能脱口而出的 1/2,像是德夫林这样的数学家就会回答 1/3。

呀!原来如此!

不过“星期二”的部分不会有啥影响,对吗?

“这取决于你问的是一位数学家还是一位统计学家。”德夫林说道。

数学家只会简单地推导出原始问题中的那个可能性,而把其他该排查的都去除。如果你不知道其中一个孩子的生日是星期二,那么你可以想到的生日性别组合是儿子—星期一、儿子—星期二、儿子—星期三、儿子—星期四、儿子—星期五、儿子—星期六、儿子—星期日、以及女儿—星期一、女儿—星期二、女儿—星期三、女儿—星期四、女儿—星期五、女儿—星期六、女儿—星期日。

现在看起来有点酷了吧?

因为第一个或者第二个孩子是星期二出生的男孩,所以德夫林给出的修订组合是:

  • 第一个孩子是儿子—星期二、那么第二个孩子可能是 :儿子—星期一、儿子—星期二、儿子—星期三、儿子—星期四、儿子—星期五、儿子—星期六、儿子—星期日,以及女儿—星期一、女儿—星期二、女儿—星期三、女儿—星期四、女儿—星期五、女儿—星期六、女儿—星期日。
  • 第二个孩子是儿子—星期二、那么第一个孩子可能是 :儿子—星期一、儿子—星期三、儿子—星期四、儿子—星期五、儿子—星期六、儿子—星期日,以及女儿—星期一、女儿—星期二、女儿—星期三、女儿—星期四、女儿—星期五、女儿—星期六、女儿—星期日。

因为“两个都是星期二出生的男孩”的情况已经在前面一行中出现,所以第二行就不需要列出来了,这样就会有 27 种(而非 28 种)可能的组合。那么在这 27 种当中,有 13 种是两个都是儿子的状况。所以这个答案是 13/27,而非原先没有“星期二”条件约束下的 2/3。

是不是听见了噼里啪啦的声音?那是你的大脑神经元正在处理前述内容的努力。别说你没看见前面的警告,不过你得坚持下去,你可以的。

现在,轮到统计学家上场了,他会提供一个全然不同的观点。对于他们来说真正重要的是,当数学在真实世界里应用的时候会出现什么。“举例来说,我们一直被教导说乘法是互换等效的,‘3×4’和‘4×3’等同。但在现实中,3个袋子每个当中有4个苹果和4个袋子每个当中有3个苹果可完全不是一回事。”同样地,他在他的博客上指出,如果你被告知1/4磅火腿售价2美元,那么请问3磅火腿要花多少钱,数学家会告诉你24美元,但统计学家就会说在去超市做调查之前无可奉告,因为每家都会在销售量比较多的情况下打打折。

在星期二男孩的问题上,想象一下你来自于一个会先说出老大的性别然后才说老二的文化,那就意味着大孩子是儿子,你不仅可以剔除女儿—女儿组合,还可以剔除女儿—儿子组合,剩下的就只有儿子—儿子和儿子—女儿了,这样两个都是儿子的概率是1/2。

因此,所有来自真实世界中的问题都有两种解释 :数学家的简洁版和统计学家的演绎版。举个例子,1993 年,专栏作家乔治·威尔在《华盛顿邮报》上写了一篇文章,里面有一句“在未成年人均支出最低的10 个州中,有4个州——北达科他、南达科他、田纳西、犹他——的SAT 成绩是全美最高的。而在 SAT 成绩最好的10个州中,只有威斯康星一个州位列人均未成年人支出最高的10个州。新泽西是人均未成年人支出最高的州了,达到了让人咋舌的10,561 美元,但是新泽西的SAT 成绩排名呢?39。”这个表述从数学上来说没啥问题。

我是 1999年在《统计教育》期刊上发现这个引述的,那上面指出了一个重要的事实 :在新泽西所有上大学前的学生都进入了 SAT 考试,而在北达科他、南达科他、田纳西和犹他,只有去外州上学的学生才进入了 SAT 1q,我敢打赌这部分一定是更精英的学生。这就是选择偏差,而这种偏差无所不在。是的,我们会很奇怪地同时听到“十个牙医有九个选择克拉斯牙膏”和“十个牙医有九个选择高露洁牙膏”两种说法。但事实上,这和选择哪些牙医来讲有关。

或者来看看下面的大标题(来自 WorldHealth.net 网站),里头就有一个流行科学写作的标题党把戏 :真诚的笑让人长寿。而显然,原始文献说的其实是,在相片中流露出更多真诚笑容的那些人寿命更长,其标题为:相片中显著的微笑预示了长寿。

来,再次试试看你能不能看得出这其中的不同。

把戏就在于研究证实的其实是两者的相关性,而媒体文章却把这个搞成了因果性。是不是一个发自内心的微笑“预示”了长寿?是的。但它会“促进”长寿吗?并不一定。更有可能的情况难道不是这些喜欢笑的人本来就更快乐,而快乐中的某些因素(并非微笑)能促进长寿吗?

同样地,在数学上这样的说法没错,有枪的人被谋杀的概率是没枪的人的2.7倍,但到底是枪使得主人容易被谋杀?还是这些容易惹上谋杀之祸的人更倾向于持枪?

再来举个例子,拿美国政府公共卫生改良政策的负责人南希-安·德帕尔(Nancy-Ann DeParle)2010年公布的卫生保健预算方案来说吧。按照这个计划,每年的人均保障金额到2019年将会减少1000美元。从币面价值来说,是这样的。但实际上,免费医疗届时将会覆盖3200万现在还没有医疗保障的人。这就意味着,2010年已经享受到保障的人其实是需要为新增加的这部分人放弃一些的。

这是一个苹果和橘子的比较,就像全然不顾通货膨胀因素来反对汽油价格从1992年2月的每加仑0.99美元涨到了 2011年2月的每加仑3.38美元。你其实不能拿这两者来比,因为比较的规则变掉了。保守的英国政客克里斯·格雷林(Chris Grayling)曾指出,2002年的暴力犯罪率比前年上升了35%,以此作为自由法律政策失败的证据。但其实那一年是刚刚实施了一项政策,可以由普通市民,而不仅仅是由警察来指证暴力犯罪,因此很多人会把警察认为不是暴力的情况归为暴力。“上升了35%”就是一个把苹果当成橘子得来的后果。

最后再讲一个,有数据称,TSA(美国运输安全管理局)在飞机案件中漏查了 5% “有工作”的人,他们试图走私货品。呀!如此说来,你乘飞机的时候,身边 20 个人当中就有一个鞋子里揣着个炸弹不成?

哪里搞错了?

问题在样本上。尽管有些时候它好像是这么回事,但不是说每个人都这么和你过不去。事实上,只需想象一下,每天200万飞过美国的旅客中有一名是恐怖分子,而 TSA 漏查了其中的5%,这就意味着4000万飞往美国的人当中有一名是会惹大麻烦的恐怖分子。那么就算选择300人容量的波音 767,你也得飞个 130,000 次才会遇上一名这样的恐怖分子。(OK,那同样会导致误解 :统计学家会指出1/130,000也意味着你任何时候都有可能在飞机上碰到恐怖分子,仅仅是没那么容易罢了。)可以和另一个数据比较一下,就是你一辈子当中有1/100的概率死于车祸。实际上,这也没什么,因为它只是在数学上正确,在统计学上一样有误导——要是你不开车呢,或者开车开得很小心,又或者已经过了25岁呢?

所以前面这个有点长的故事的寓意首先在于 :先有数学,后有统计学,最后才有大标题。就像电话游戏一样,很有可能在过程中因为选择偏差而丧失意义。

马克·吐温说过,世界上有谎言,该死的谎言,以及统计学。

受此启发,著名经济管理学家亚伦·莱文斯泰因(Aaron Levenstein)说的是,统计学就像比基尼——它们透露出的是暗示,但它们却掩盖了最重要的部分。不过这种把戏再也骗不到你啦,你这会儿该知道怎么去翻出关键部分了。

0
为您推荐

10 Responses to “来,利用业余时间拯救世界吧”

  1. lhb5883说道:

    我觉得并不能推出1/3吧?
    除非是绵羊开门问题,才能影响概率吧

    • luciferji说道:

      1 .我有两个孩子,你认为我有两个儿子的可能性有多大?
      2. 我有两个孩子,其中一个是星期二出生的男孩子。你认为我有两个儿子的可能性有多大?

      比较上面两个cases以及相应的概率,你会发现跟绵羊开门是一样的。

      • 说道:

        这个问题和绵羊开门(三门问题)最大的不同是,主持人有可能知道两只羊在哪个门也有可能不知道它们在哪个门,但“我”不会不知道我有几个儿子。

        所以,是不一样的。

        • 零尘说道:

          我觉得也不能推出1/3,这里考虑了女儿-儿子,儿子-女儿,儿子-儿子三种情况,但是,在儿子-儿子中,并没有考虑星期二儿子的出生顺序,而前面却考虑了女儿的出生顺序,所以儿子-儿子其实是两种情况:星期二儿子-另一个儿子,另一个儿子-星期二儿子,所以结果还是应该是1/2.

    • 零尘说道:

      我觉得也不能推出1/3,这里考虑了女儿-儿子,儿子-女儿,儿子-儿子三种情况,但是,在儿子-儿子中,并没有考虑星期二儿子的出生顺序,而前面却考虑了女儿的出生顺序,所以儿子-儿子其实是两种情况:星期二儿子-另一个儿子,另一个儿子-星期二儿子,所以结果还是应该是1/2.

  2. cathy说道:

    最近看过一本书《尼采:在世纪的转折点上》,其中有一段写的不错。http://www.mr-guangdong.com/index.html
    孤独是一颗值得理解的心灵寻求理解而不可得,它是悲剧性的;无聊是一颗空虚的心灵寻求消遣而不可得,它是喜剧性的;寂寞是寻求普通人间温暖而不可得,它是中性的。我最孤独的时候就是无聊和寂寞过后无法排解才让我感到孤独!

  3. 将就看懂说道:

    这回,只看懂了一句:"琢磨互联网上这些刷屏打游戏的大量人力能拿来做点什么正经事的重大问题"。嘿嘿

  4. 云山说道:

    万一没拯救成世界,拯救自己的生活肯定没问题(谷大白话语)?

  5. bobcy说道:

    记得读书时回家需换乘一次公交,这2条公交线路有10多个站点是重合的,而这两条公交线路的发车间隔有差别,车速也有差别,最无语的是这2个线路的公交如果在重合的站点线路上相遇后,会开展一场令全车乘客此起彼伏的公交车追逐战。

    于是学过数学建模的我特意建了简单模型,用来计算当我乘坐第一趟车抵达重合的第一个站点后,如果尚未看到第二趟车,我该在第一趟车上接着坐多少站后在下车,等第二趟换乘公交,还特意实践检验了上十次。最后发现,不管我的模型有多完美的综合了所有的因素,最好也是最简洁的换乘方案始终是:坚持做第一趟公交车,看到待换乘的第二趟车后,等第一趟车超过第二趟车后的下一个站点下车换乘。如果始终碰不到的话,就做到第一趟车和第二趟车重合的最后一站下车,等第二趟车。

    感觉数学真的不是必须的,某些时候依靠人的直觉就足够了。

  6. 三鱼说道:

    感觉确实有问题,没考虑顺序