首页 >> 数学 >> 计算机科学 >> 文章

一.信息爆炸的时代

我最喜爱的作家之一是美国科幻及科普作家阿西莫夫(I.Asimov),他一生出版过约500本书——恐怕比我一生将会发表的文章数还多。我念中学时曾读过他的很多书,其中有一本叫作《数的趣谈》[注一],而那其中有篇文章叫做“忘掉它!”(ForgetIt!),我到现在还没忘掉。

QQ20130704-1阿西莫夫在那篇文章的开头引用了一本生物教科书的前言片断,大意是说我们的科学知识每隔一代就会增加五倍,以生物学为例,2000年的知识将是1900年的100倍。这段话让阿西莫夫深感不安,甚至感到“世界好象在我身边崩溃了”。为什么呢?因为在阿西莫夫看来,象他这样快速写作的科普作家,几乎是在职业性地追逐着科学的发展,可在一个信息爆炸的时代里,他有可能追得上形势吗?

阿西莫夫在那篇文章中为自己的问题找到了答案。不过,我们先不去看他的答案。阿西莫夫那篇文章发表于1964年,在那之前的1961年,“信息爆炸”(informationexplosion)这一用语首次出现在了IBM公司的一则广告中。自那以后,信息爆炸一直拨动着人们的心弦。也许很多人都会产生与阿西莫夫同样的担忧:在一个信息爆炸的时代里,我有可能追得上形势吗?

如果我们把阿西莫夫时代的信息爆炸比作常规爆炸,那么由互联网及信息数字化所带来的当代信息爆炸恐怕就是核爆炸了。因为常规的信息爆炸只是书本知识的爆炸,而能在书本上占据一席之地的人毕竟是不多的。但互联网时代几乎让每个人都拥有了发布信息的能力,由此带来信息爆炸无疑要惊人得多。据一家美国研究机构统计[注二],截至2007年,人类拥有的数字化信息(文字和音像都算在内)约有225000亿亿比特(2.25×1021bits),约合15000亿亿个汉字,而且这一数字几乎每隔5年就增加一个数量级。在这些信息中,约百分之七十是个人创造的。以时下最流行的博客来说,其数量在过去几年里几乎每6个月就翻一番。到2008年底,仅中国网民开设博客者就超过了1.6亿人[注三]

二.谷歌的新思路

信息爆炸——尤其是互联网上的信息爆炸——带来了一系列深刻的社会变化,也使越来越多的人对信息爆炸的前景进行着思考。不过与阿西莫夫当年那种忧虑性的思考不同,当代的思考者中有很多人全心地拥抱着这个信息爆炸的新时代,且对其前景作出了与前人截然不同的设想。2008年6月,美国的一位技术杂志主编发表了一篇标新立异的文章,题目为“理论的终结:数据洪流让科学方法过时”(TheEndofTheory:TheDataDelugeMakestheScientificMethodObsolete)。

这份杂志名为《连线》(Wired),是一份以探讨技术影响力为主题的杂志,创刊于1993年,订阅人数约在50万到100万之间。而撰写那篇文章的主编名叫安德森(ChrisAnderson),是一位经验丰富的传媒人士,曾在《自然》(Nature)、《科学》(Science)及《经济学家》(TheEconomist)等著名刊物任职。安德森担任主编期间,《连线》杂志曾多次获奖,而安德森本人也在2005年获得过一项年度最佳主编奖。

430px-Etech05_Chris

【安德森 (Chris Anderson) 图片出处:维基百科】

安德森这篇文章的观点标新立异不说,就连标题也相当耸人听闻,不仅预言科学理论将会终结,而且宣称科学方法将会过时。他的这一奇异想法从何而来呢?我们来简单介绍一下他那篇文章的思路。安德森的文章以著名统计学家博克斯(GeorgeBox)的一句引文作为开篇,那句引文是:“所有模型都是错误的,但有些是有用的”。安德森提出,虽然人们长期以来一直在用模型——比如宇宙学模型——来解释现象,但最近这些年里,象谷歌(Google)这样扎根于信息时代最前沿的公司已经采用了新的思路。

安德森举了谷歌翻译及谷歌广告作为例子。我们知道,常规的机器翻译是通过一系列静态的规则,比如字典及语法规则,来把握文章的内容。但谷歌翻译另辟蹊径,借助数以亿计来自不同语言的语句之间的统计关联来做翻译。这种翻译的最大特点是无需知道被翻译文字的含义,而只关心两种语言之间的统计关联。类似地,使谷歌获得巨大利润的谷歌广告——那些当你搜索东西时出现在结果右侧的小广告——也是建立在统计关联之上的。谷歌既不在乎你搜索的东西的含义,也不关心它所显示的广告是什么,它之所以列出那些广告,完全是因为统计关联表明它们与你搜索的东西有关。

谷歌这种全面依赖统计分析的新思路几乎体现在它的所有产品之中。据说谷歌的研究主管诺维格(PeterNorvig)曾在2008年3月的一次技术会议上,将安德森文章开头所引的博克斯的话改成了“所有模型都是错误的,没有它们你也能日益成功”。谷歌这种新思路给了安德森很大的启发。他做出了一个大胆的预测:谷歌的新思路不仅适用于商业,而且会越来越多地渗透到科学上,并如他文章标题所说的那样,最终取代现有的科学方法。在他看来,科学才是这种新思路的“大目标”(bigtarget)。

我们知道,科学研究的常规模式是从实验数据或观测数据中提出假设、模型或理论,然后用新的实验或观测来检验它们。安德森认为这种模式在信息时代的数据洪流中将会过时,今后人们只需象谷歌那样直接从大量数据的统计关联中得出结论就行了。用他的话说:“关联就已足够,我们可以停止寻找模型”。按照安德森的设想,我们只需将大量数据扔进巨型计算机,让它运用统计算法去发现那些科学所无法发现的关联。那些关联将取代因果关系,科学将摆脱模型和理论而继续前进。

如果安德森的设想成为现实,那么不仅今天的科学方法将成为历史,甚至连科学家——起码是理论科学家——这个职业也很可能会不复存在,因为我们所需要的将只是能建造和维护计算机的技术人员,以及懂得统计学原理的编程人员,我们将再也不需要理论。这样的前景对科学家来说无疑是陌生的,但安德森认为这是信息时代带给我们的一种认识世界的全新方法,它展示了巨大的机会,科学家们不应墨守传统的科学方法,而应该自问:科学能从谷歌中学到什么?

安德森对科学理论及科学方法的全面唱衰所带来的争议性是显而易见的。他的文章一经发表,立刻遭到了很多人的批评,有人甚至迁怒于《连线》杂志(谁让安德森是主编呢?)。比如卡内基梅隆大学(CarnegieMellowUniversity)的一位助理教授在看过安德森的文章后,把自己前不久接受《连线》杂志的采访称为是一个错误,而且是在试图打发“等候室时间”(waiting-roomtime)时所犯的错误,言下之意,哪怕是在等候室里无所事事的时候,也不值得为《连线》杂志浪费时间。有意思的是,这位助理教授原本是物理学博士,目前则在统计系工作,如果安德森的观点能够成立,他的前景倒是蛮光明的。

当然,对更多的人来说,安德森的观点不过是一家之说,赞成也好,反对也罢,都可以平心静气地进行分析。我们感兴趣的问题是:安德森的观点到底能不能成立?或者最低限度说,它有道理吗?在本文接下来的篇幅里,我们就来稍稍分析一下。如我们在前面所介绍,安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路,从某种意义上讲,他将这些谷歌技术当成了未来科学方法的范例。既然如此,就让我们先以谷歌翻译为例考察一下,看看它是否有可能承载安德森赋予它们的重任。

三.统计方法与高级密码

常言道:是骡子是马,拉出来遛遛。考察谷歌翻译的最佳办法当然是检验它的翻译效果。我们随便举几个例子。其中最简单的例子是翻译安德森这篇文章的标题“理论的终结:数据洪流让科学方法过时”,谷歌翻译给出的结果是“理论的终结:数据洪水滔天使废弃的科学方法”。这个例子虽然简单,却很清楚地体现了谷歌翻译的特点及缺陷。如我们在上文中所说,谷歌翻译的特点是以统计关联而非语法为基础,上述译文的不通顺很清楚地显示了这一特点带来的缺陷。

谷歌翻译的这种缺陷在更长的句子中显得更为清楚,比如牛顿(IsaacNewton)的那段名言:

我不知道我在别人眼里是怎样的,但对我自己来说我只不过象是一个在海边玩耍的男孩,因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋,却全然没有发现展现在我面前的伟大的真理海洋。

用谷歌翻译的结果是[注四]

我不知道我可能会出现的世界,而是为了自己,我似乎已经不仅就像一个男孩玩海上岸上,和挪用自己现在然后找到平滑卵石或比普通漂亮外壳,而大洋的真相躺在我面前的所有未被发现。

要看懂这种比绕口令还拗口的翻译是需要毅力的。谷歌翻译能作为未来科学方法的范例吗?答案应该是不言而喻的。

安德森所举的谷歌技术的另一个例子,即谷歌广告,也具有非常显著的缺陷,事实上,利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密。谷歌技术当然不无优越之处,比如它具有所谓的统计学习(statisticallearning)功能(细心的网民会注意到,不同时候用谷歌做同样的事情得到的结果通常会有一定的差异),但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性,这种模糊性虽不足以妨碍商业上的成功,但它与科学理论之间的差距是巨大的,并且是本质性的。

如果我们稍稍深入地思考一下,就会发现谷歌的思路人们在其它场合也曾用过。举个例子来说,密码学中有一种简单的密码叫做置换密码(substitutioncipher),它是通过对字母或其它文字单元进行置换来达到加密的目的。破译这种密码的主要途径就是统计分析。比如在英文中字母e是出现频率最高的,假如我们截获了一份经过字母置换加密的文件,我们就可以对文件中各符号的使用频率进行统计,其中使用频率最高的符号就很可能代表字母e。对其它字母也可如法炮制,这种方法类似于谷歌翻译。但密码学上的经验告诉我们,单纯使用统计方法是很难完全破译一份密码的,通常你会碰对一些字母或文字单元,就象谷歌翻译会碰对一些单词一样,但完整的破译往往需要辅以更仔细的分析和微调。更重要的是,这种方法只能破译象置换密码那样初级的密码,对于更复杂的密码则完全无济于事。

科学家们对自然规律的研究在一定程度上好比是在破译大自然的密码,但这种密码显然不象置换密码那样简单,因而绝不可能通过单纯的统计分析来破译。积累足够多有关行星运动的数据,我们也许能发现开普勒定律,但无论积累多少数据,我们也不可能依靠单纯的统计分析得到象爱因斯坦的广义相对论那样的理论。事实上,单纯的统计分析至多能够知其然,却无法知其所以然,它甚至不能告诉我们行星的运动是不是因为一个看不见的精灵在推动。科学是一项需要高度创造力的工作,科学上的很多成果,仅凭实验数据、发达的计算机和统计分析是永远也得不到的,这就好比用破译置换密码的方法永远也破译不了更高级的密码。

四.数据洪流中的灯塔

谷歌新思路的另一个问题,是不可避免地受到大量无效信息的干扰。这一点想必每位网民都有自己的切身体会,互联网既是信息库,也是垃圾场,数据洪流必然携带泥沙。怎么办呢?让我们回过头来看看本文开头提到过的阿西莫夫为自己对信息时代的担忧找到的答案。那答案就是他那篇文章的标题:忘掉它!忘掉什么呢?忘掉那些无效信息。这位智商高达160的著名作家认为,只要我们能足够有效地忘掉所有的无效信息,信息爆炸就远没有人们想象的那样可怕。

如果数据洪流真的如安德森设想的那样成为未来科学研究的主战场,那么对未来的研究者来说至关重要的一点就是阿西莫夫所说的忘掉无效信息,或者说去除数据洪流中的泥沙。要想做到这一点,首先要能识别无效信息,而这种识别离不开模型或理论,甚至它本身就有可能是一种模型或理论。如果未来的科学研究真的摒弃了模型或理论,而只关心数据之间的关联,那它在泥沙俱下的数据洪流中不仅会遇到谷歌翻译与谷歌广告已经遇到过的问题,甚至还可能产生出一些荒谬的结果,比如象很多伪科学人士所热衷的那样把金字塔的高度(曾经为147米)与日地距离(1.49亿公里)联系起来,把金字塔的底边周长(36560英寸)与一年的天数(365.2)联系在一起。这种纯粹的数值巧合在科学研究单纯依赖于数据分析的情形下将能够轻易地登堂入室,混淆于科学成果之中。

我们曾经提到,安德森在文章开头引用了博克斯的话:“所有模型都是错误的,但有些是有用的”,他引用这句话显然是要为自己的观点作注解。可惜他张冠李戴了,博克斯是一位统计学家,他所说的模型并非泛指科学理论或科学模型,而是特指统计模型。因此博克斯的话与其说是能为安德森的观点作注解,不如说恰恰是拆了他的台。

不过另一方面,统计分析虽绝不可能如安德森预言的那样成为一统天下的科学方法,但它作为科学方法的一种,在过去、现在及将来都将发挥积极的作用,这一点任何人也不会否认。正如博克斯的后半句话所说的:有些模型是有用的。在数据总量空前膨胀的信息时代,统计分析的作用有可能得到局部的加强;在某些理论性不很强的领域中,它甚至有可能成为主要方法,从这些意义上讲,安德森的观点虽失之偏颇,却并非完全脱靶。不过我们可以肯定的是,面对滚滚而来的数字洪流,科学方法绝不是即将被冲离视野的竹筏,相反,它是帮助我们在洪流中辨明方向,看清未来的灯塔。

注释

  1. 该书的英文名是《AsimovonNumbers》,确切译名应该是《阿西莫夫论数》,它汇集了阿西莫夫为《TheMagzineofFantasyandScienceFiction》撰写的17篇科学专栏文章。
  2. 这家公司是InternationalDataCorporation(IDC),该统计报告发布于2008年3月,标题为“TheDiverseandExplodingDigitalUniverse”。
  3. 该数据来自中国互联网络信息中心(CNNIC)2009年初发布的第23次互联网报告。
  4. 这段话的英文是:“IdonotknowwhatImayappeartotheworld,buttomyselfIseemtohavebeenonlylikeaboyplayingonthesea-shore,anddivertingmyselfinnowandthenfindingasmootherpebbleoraprettiershellthanordinary,whilstthegreatoceanoftruthlayallundiscoveredbeforeme.”。需要提醒读者的是,不同时候使用谷歌翻译得到的结果会有一定的差异,本文引述的是作者写作本文之时使用谷歌翻译得到的结果。

关于本文

本文授权转载于卢昌海老师的个人博客,欲再转载者请联系原作者。

本文是应《科学画报》杂志的约稿而写的评论,所评的是美国的一份以探讨技术影响力为主题的杂志《连线》(Wired)上的一篇有争议的文章。本站版本包含了几处注释,在若干人名及术语初次出现时附有英文,并且略去了一小段开篇语。此外,本站版本与发表稿还存在若干细微的文字差异(因后者经过了编辑的修改)。

二零零九年三月十四日写于纽约
二零零九年五月四日发表于本站

题图出处:http://www.gizmodo.com.au/

0
为您推荐

31 Responses to “竹筏还是灯塔——数据洪流中的科学方法”

  1. york说道:

    许多模型的建立本身不就是统计关联的吗?比如中学学到的许多公式,就是实验数据用关联的方法硬凑出来的呀?

    • rogerhugo说道:

      比如牛顿3定律就是,不过应试教育下的小朋友误以为是真理了。

      • 灞桥柳说道:

        真理是什么?还不如公理靠谱。

        大部分情况下,牛顿3就足够解决一般应用问题了。科学和技术貌似还真不是一回事。

  2. 居里猴弟说道:

    这是一个很有趣的话题,不过如果作者对统计机器学习(Statistical Machine Learning)进行一些了解的话,大概会写的更加客观一些。

    对以下几个观点,我有一些个人的粗浅见解,希望和大家交流:
    (1)“这种纯粹建立在统计关联之上的结果具有无可避免的模糊性”
    模糊性是人类认知的基础属性之一,虽然并非任何事物都有模糊性,但是在这样一个科学用于实践的时代,如果缺乏对模糊性的容忍,那么适应能力是无法保证的。简单举例,一个人类的小孩子见过两三种汽车,就可以在看到一种新的汽车的时候准确识别出来,这种“模糊”和泛化的能力,不是现有的任何一种精确模型可以描述的,反而是基于统计的方法能够在一定程度上模拟人类的观察、认知和学习(参见google的自动驾驶汽车)。

    (2)“谷歌翻译能作为未来科学方法的范例吗?答案应该是不言而喻的。”
    机器学习研究界有这样一个准则:解决一个问题,不应该以解决一个更加一般的问题作为中间步骤(Vapnik)。基于统计的方法,是对这个准则的最好践行。同样举作者谷歌翻译的例子,大量的统计结果已经可以达到比任何传统方法都好的翻译结果(否则谷歌为什么不去用传统方法,况且中文翻译本来就不是投入最大精力的),即使通过精确刻画语言模型达到了翻译的效果,但花费的精力已经远远大于完成“翻译”这一任务的需要,反而是不够合理的。再举例,小孩子在最初学习母语的时候,是完全不会从语法、构词等“语言模型”上学习的,而是直接从日常经验中学习,建立语言和意思的关联即可,反倒是从语法开始学习的外语,学习的过程会更加的艰难。

    总之,基于统计的方法是目前为止,应对信息爆炸最有效的手段,同时也是一种科学的手段。希望读到本文的读者们,也能多查阅一些资料,了解一些最新的学界、业界动态,不要被一些“传统”的观点蒙蔽。并不是看起来很科学的方法,就是科学的方法,而是能解决问题的方法,才是科学的方法。

    最后,我相信,因为数据本身的变革,未来的科学家中大概会有更多的统计学背景,但任何科学的研究方法都有其重要意义。

    参考资料:
    1、第四范式:数据密集型科学发现
    2、统计学习理论(Vapnik)

    • kkkk说道:

      你说模糊性是人类认知的基础属性之一,不如说“模式识别”是人认知的基础属性之一,甚至可以认为“模式识别”是人认知的最基础最根本最重要最强大的能力。
      人的智能来自于大脑的神经网络,而“神经网络”这种结构,天生就具有“模式识别”的能力,人类要理解一种事物,几乎都要形成某一种模式,否则人无法理解。形成的模式可以是一种规律,也可以是一种模型。比如“因果律”万有引力”,比如“宇宙大爆炸”、“原子”模型。正是这些模式,才人让人“哦,原来是这样”的感觉 。
      文中也说了,这种靠统计方法的翻译本身就是一种模型。人要想摆脱模式或模型,除非他的智能不来源于神经网络。你举的小孩学习语言的例子,我觉得不恰当,首先小孩学习语言能力比大人强,很有可能的原因是小孩与与大人的大脑状态不一样,导致小孩语言学习能力强。其次,小孩学习语言,我觉得很多的是在和大人交流的过程中识别模式,而不是对大人的语言做统计。

      统计方法的基础在于随机性,但是我觉得世界上不存在绝对的随机,只是某些事件的因果关系太复杂,从宏观上看好像是随机

    • 旋转的海说道:

      所谓不可避免的模糊性是指:在科学中失之毫厘谬以千里,模糊有可能造成截然不同的结论

  3. 勤快卓克说道:

    安德森的提法初看起来确实容易让人幻想出一个奇妙的图案,好像规律将诞生于统计中

  4. Z.y说道:

    互联网是伟大的发明,但要说互联网能够自动得出理论公式,无异于说互联网能够进化为全能全知的上帝...

    网上的每台计算机相当于一个神经元细胞,互联网不过是连接这些细胞的高速神经纤维;如果说网上的一些有特殊目的的超级计算机是神经节的话,静静地分析着数据洪流,那么它们永远不能创新!因为新理论在初期存在 没有数据/数据量不足/数据错误/模型乱套...等,是注定被归为无用数据的那一类的。互联网又凭什么选的出正确的理论呢?!

    互联网现在干的不过是最简单、最单调、最无趣的数据传送、收集、整理工作罢了,它结果的正确性取决于人类输入的正确性,想想现在互联网上99.99%的无用狗屁信息,人类说:只要大多数人认为对的就是对的,互联网就信了,我很为互联网的智商捉吉啊...

    要想能够独立推导新理论、翻身做主人,等到具有人类大脑思维水平的超超超级计算机诞生的那一天再说吧!互联网再强大最后还不是要靠计算机前面那一个宅疯子的灵感。

  5. rogerhugo说道:

    如果统计=计算,作者的结论可以借鉴;
    如果统计=归纳,作者的结论就是误导。

  6. oldkey说道:

    老外最大的习惯就愿意哗众取宠。
    人工智能中统计的方法并不是新鲜的玩意,早就有。gg只不过是大规模使用而已。
    统计方法的优缺点也早就有人做过深入的分析和总结。

  7. hunke说道:

    世界上存在绝对正确的模型,或者说“有些模型本身就是客观世界的一部分”。这个观点很大程度上只是一种信仰。主流的物理学观点是:模型只是人脑构造出来的一套逻辑关系,可以无限逼近现实,永不相等(即便相等,也无法证实)。

  8. hunke说道:

    在理性的基础上,所有的判断都是统计学。——C.R.Rao

  9. yjc说道:

    按照安德森的设想,我们只需将大量数据扔进巨型计算机,让它运用统计算法去发现那些科学所无法发现的关联。那些关联将取代因果关系,科学将摆脱模型和理论而继续前进。
    ----------------------------------------------------
    这里提到的统计算法难倒不是模型吗? 难倒这个统计算法永远不更新吗? 这让我想起来了

  10. ZHX说道:

    话说注释里的英文没有空格。。。

  11. scq说道:

    这也就现阶段,一切都在萌芽阶段!不要弄不弄就大言不惭!

  12. Metaverse说道:

    单纯的统计得到的关联性跟拼凑没多大差别,它们并非就能很好的描述真实的逻辑关系或因果关系。

  13. 无中生有说道:

    安德森只是证明了各国的都有无节操媒体人

  14. 破坏神说道:

    没有科学方法的分析,统计内容只是团数字,没有任何意义!

  15. survivor77说道:

    看到安德森以google翻译为论据,我顿时欣慰地笑了。。。

  16. survivor77说道:

    计算机根人类在考虑一件事情上的差别是:

    计算机:“是这样,或者不是。”
    人类:“也许可能大概会不会或许是这样?”

    当你想要弄明白一件本来不存在于你认识领域,或者其实根本就不存在的东西时,以上哪种思考模式更有优势是显而易见的。

    统计是一只永远只能被局限在“相关性”的笼子里的老鼠,不可能从里面跑出来吃到那块叫做“因果性”的奶酪。

    • yumeko说道:

      是或者不是不就是 true or false ,其值就是 true!
      人类说是或者不是,要么就是这个人根本没有看法,或者他不想表达
      根本不是什么人类对于机器的优越性

  17. shengchou说道:

    毫无疑问,今后的科学模式肯定不再是反反复复的实验和数据,只是现在计算机的速度还远远不够。等到那一天,你只需告诉计算机自己想要的东西,以及现有的条件,计算机就会给你开出一张如何实现它的步骤清单,而且是准确无误的。

  18. 恩兄说道:

    好文章。批判的深刻。

  19. 旋转的海说道:

    “科学是一项需要高度创造力的工作,科学上的很多成果,仅凭实验数据、发达的计算机和统计分析是永远也得不到的”名言锦句

  20. Illusiwind说道:

    洪流的泥沙里,也许会有金子呢。

  21. 发的说道:

    耐克官方网站专卖店http://nike2012.com.nu

  22. versugw www.kuaipu.com.cn说道:

    “忘掉它!”(ForgetIt!)

  23. 快普 versugw www.kuaipu.com.cn说道:

    ERP管理系统

  24. kasin深邃的星空说道:

    非常好的文章。谢谢。。。

  25. 通用人工智能说道:

    这话没错,人们发现科学规律,只是依靠人去总结这些统计学规律。以后计算机可以代劳了。

Leave a Reply