首页 >> 活动 >> 科学圈圈坐 >> 文章

科学圈圈坐之五-黎波Comments>>

发表于 2010-01-28 22:40 | Tags 标签:, , ,
1

爽朗!

转眼这次的圈圈坐已经第五期了,从龙漫远老师的一点和端木三相连成一线,到马原野老师的加入成为鼎足之势,直到上一期谢宇老师加入,方圆之地得以构建,加上这一期,离圈圈二字更是贴近了(园内分割多边形,是不是有点冷了),之所以跌跌撞撞的拽这么一段,是因为——

黎波,清华大学经济管理学院助理教授.2002年毕业于北京大学数学系,2006年在美国加州大学伯克利分校取得统计学博士学位.官方主页 学术主页(需翻墙)

记者手记:黎波老师让我称呼他为”黎叔”,他的学生都 这么唤他.但我一直出于恶作剧心理地喊他”玻璃老师”,他也好脾气地接受了,直到最后稍微提出了抗议:”有gay男之嫌”. 我们的采访断断续续地,在除旧迎新的跨年中进行.这位年轻谦虚的学者,有着数学家认真严谨的性格,也有文艺男青年温文尔雅的特点,还有”80后”幽默狡黠 的一面.与他交谈,是松鼠会给予我最好的新年礼物.

随大流偷懒的海归人生

夏如(以下简称夏): 当你02年从北大数学系毕业后,为什么选择出国?又为什么转行选择了统计学?

黎波(以下简称黎): 我出国是随大流,算是北大数学系的传统。因为我本科过的混沌,身无长技,只是跟风考了寄托,然后就顺理成章出国了。专业选择也是属于干一行爱一行的那种. 因为我在本科后期觉得做纯数学研究似乎很难,最好是天才型的人或者至少是需要高度专注的人才可以。而我自觉天分中上,但还不到天才的高度。而且念完本科后关注的话题兴趣有些过多,无法专注到一个方向精耕细作。所以就挑了相对更应用一些的统计来学,在那个时候,也属于典型数学系毕业生赴美的选择。所以总体来说,我选择出国以及专业跟很多类似背景的人并无二致。

夏:之后觉得这个跟风的选择对么?

黎: 统计学得久了就愈发有感情了,也兴趣日浓,虽然还是一如既往地被很多别的兴趣分心而无法专注。而且从我后来的际遇以及我个人的期望来看,我觉得当初误打误撞的运气还不错。

夏:那么,你还有什么其他兴趣呢?

黎: 勉强算附庸风雅附庸文艺。听古典乐,网球滑雪等一些运动,最主要是被一些乱七八糟的阅读给蹉跎了,我主要关注政,经,史之类的话题,当然还有很多当下社会八卦。。。对于很多非专业的兴趣,我通常连票友都算不上,纯属自娱自乐。我个人的性格特征也传导到我的研究模式上了。我在研究上也是喜欢四处八卦,结果就是都会一点但不深刻。所谓左右逢源的结果就是左右支拙吧。所以松鼠会找我实在不合适,我不是个合格的科学研究者。。。。

夏:从加州伯克利毕业后,为什么选择回国?06年是个投行风生水起的年代,许多学生(特别是统计)都转行奔华尔街了寻高薪了。

黎:是的。我很多同学去做了quant。对我来说,一是还是觉得在母文化更自在惬意一些吧,母文化是个大坑,包括很重要的饮食。还有最重要的原因是我太懒。我读博士比较幸运,导师对我慈祥放羊,导致我草草毕业的时候水平不济,因此我若毕业后留在美国学界混预期会很辛苦的。因为我觉得tenure之前的初创阶段还是太累,压力太大。而且旅美中国人只能在高端竞争,我们终究是外来之人。但我自己没什么事业野心,更看重轻松自由,所以肯定愿意比较悠闲的呆在学院内。

夏:那么海归后,为什么不继续做统计学研究,而转向经管作为回国的专业呢?

黎: 事实上,我一直主要还是在做统计学研究,所以不能说是转了专业。当然我也做一点经济管理的实证研究。这对我其实是比较理想的情形。我对社会科学,政经话题兴趣一直比较大。兼顾方法论和应用是统计学研究的理想状态。 无须讳言,我来经管学院就职的很重要原因里还包括薪酬考量。
夏:现在看起来,对于当时的选择满意么?有不满的地方么?

黎:还可以。没有尽善尽美。学术方面主要就是内部晋升机制不合理,非学术方面就是房价哈。还有更宏大一点的关怀就是保守主义抬头权贵资本主义突飞猛进。不过我的境况比别的专业的还是相对好很多,所以也不会那么愤了。而且我本来也比较喜欢混日子,心态好,加上运气还可以,就没什么太多抱怨的了。

夏:作为过来人,对将归未归的海带们有啥建议么?

黎:海归群落迥异,因为国内的学术市场没有像美国那样制度明晰化,有各种各样的特区和计划,制度以及收入差距可以非常大。所以基本上海归的境况是千人千面。不同的学校,包括同一个学校内的不同的院系可能相差甚远。我对有意海归的留学生的建议是:学界海归一定要遵循两条,要么就去海归有一定规模效应的地方,要么就得攒点资历搞百人计划什么的。因为国外体面生活的门槛比较低,但凡有个工作可保有尊严的生活。但国内不然,必须是相对高薪的群体才可能体面的生活进而心无旁骛的进行研究。因此对于初毕业的学术海归来说,除非是经济商科专业,基本上都会比较难吧,尤其现在生活成本高涨的背景下。所以如果呆在国外就可以随便混混,但若想全职海归就要细致准备以及调研。总体来说,新人理想海归的可能性很低,而真在海外熬成了老人,各种羁绊就更多了,也再难归了。所以在这个意义上,我说留学基本上是一条不归路。恐怕这么说有些太负面,怕冷了青年才俊的报国热情。呵呵。

统计学的科普

夏:能不能向我们的读者,还有我这个数学白痴,介绍下你的工作?

黎:我泛泛而谈统计学的研究吧。有问题我们随时可以往回一些,就像Sheldon给Penny介绍物理学那样,呵。。。。统计可以说属于一种信息科学,这跟传统的自然科学和社会科学不一样。天文学家研究星球,地质学家研究岩石,生物学家研究细胞,经济学家研究金钱(收益),那些都是比较具体的东西。统计学家的工作对象就是来自于各个领域的各种各样的数据,包括数字,图像,音频,人口统计特征,等等,基本上数字化的各种信息在统计学家眼里都可称之为“数据”。现实生活中观察到的数据(所谓样本)通常只是我们所关注的对象(总体)的一部分。统计学的工作目标就是从观察到的有限的有代表性的信息中发掘出我们所关注的对象的数据产生机制,从而可以对既有现象作出解释,或者对未来进行预测。关于统计学更多的科普性介绍可以参加国内的一个社区网站:统计之都http://cos.name/

夏:就是根据现有数据进行一些趋势上的分析,这么说对么?

黎:不完全准确,我前面的描述就是试图做到准确,呵呵。更简单说来,就是我们看到的数据或者信息只是我们关注的。东西的一些代表,如果这些代表有足够的代表性的话,我们理应能够窥探一些其背后的运行机理。统计学建立在概率论的基础之上,我们假定数据是通过某种随机机制产生的,因此统计学家的结论往往是用概率表示,依然带有某种不确定性。但是统计结论的描述本身是很严格的。这么说估计还是罗嗦了,呵呵。

夏:不会啊,非常清楚~黎老师我好喜欢和你说话。。就是很熟悉的那种讲话都要抠得很严谨的说话方式。老师继续。

黎:谢谢。所以可以看出来统计学好像是万金油一样,呵呵。事实上,这一定程度上是一面双刃剑,我们可以介入几乎是任何领域,包括生物医学心理经济金融大气天文地震等等。但是同时有时候我们学科的主体地位会受到冲击。不过这种特性比较适合我这种性格的人啦。

夏:那么是不是得说统计模型的建立过程了?

黎:嗯。说模型。大致来说,我博士论文的话题有些过于古典,就是关于统计模型的检验问题。你知道量化研究基本上都离不开所谓模型的,统计也不例外。对问题的分析推断大抵就是 建立在假想模型的基础之上。但是很多统计模型的提出很可能是建立在涉及到抽象简化的理论研究的基础之上,或者更多的是出于便利以及因循传统,因此对所提出模型的正确性进行评估是必须的。我当时的工作就属于这一分支,毫无疑问这肯定是比较古老的问题,我在博士论文里考虑了更近一些的模型以及技术手段。

夏:(。。。仔细琢磨上边一段话中)那么,你现在的工作重心呢?

黎:我现在主要关注的领域是高维统计问题。现代的存储设备和计算能力的快速提高使得数据的收集和存储愈发廉价,这也给当代统计研究带来了极多新的问题和挑战。因为是上述原因,现代统计研究通常要针对包括数目众多变量的大规模,也就是业内所说的高维统计问题。具体的例子包括微列阵基因数据,海量气象数据分析,庞大金融资产组合投资等等。

夏:也就是说。。现在我们有了计算机,采集数据很容易,所以数据太多了,原来的统计模型不好用了?

黎:这个问题很好。很大程度上是这样的。传统统计很大一部分是建立在经典大样本理论上的,也就是通常假定维数(也就是变量个数)比较小,而样本量相较于维数比较大。如此也就是说问题的复杂性比较小,但是我们所获得的信息是比较多的。传统统计定量的告诉我们随着信息量的增长我们可以越来越精确的还原未知的数据产生机制并对未来进行具有相当准度的预 测。但是当代统计面临的问题经常涉及到非常多个变量,有时候甚至超过样本量,如生物学中微阵列数据。用相对非常有限的信息直接来估计复杂度过高的模型基本上是不可能的,好比“巧妇难为无米之炊”。因此传统的理论范式在许多的高维情景中变得不再适用了。高维统计分析就是试图提出新的统计分析方法和范式来处理当代无所不在的高维问题,因此成为当下统计界的研究最热点。这甚至可以被视为自统计成为一门独立学科以来的最大革命性的风向变化。

夏:所以现在的热点就是,弄个可以搞定更多信息的统计模型?。。我一再把你精确的语言低俗化。。

黎:我之前也许说的不太精确,传统统计里的“信息量”增多主要是指样本量的增多。而当代统计里的信息量增多是变量个数的增多,有时候也伴随大样本量。维度是样本里涉及到的变量的个数,比如金融投资组合的例子里就是组合涉及到的资产个数,它通常决定统计模型的复杂程度。因此,现代数据信息量的一个维度的增长也就是维数增长是一把双刃剑,它通常也意味着模型的复杂性的快速增长。可是要估计一个复杂度很高的模型通常需要极多的有代表性的样本,也就是需要极为庞大的样本量,而在现实里这往往是不可能的。这个问题也通常被称为”维数诅咒“,可以类比我们通常所说的”资源诅咒“。

夏:再举个例子吧

黎:好比想判定一个病人是否得了某种病,医学仪器可以测量关于这个病人的各种医学指标数据,包括血压,血脂浓度。。。(不懂医学。。。),还有病人的年龄,病史等等各种数据信息,甚至还可以有基因信息。这些所有的指标的个数就是维度,而既往病例里面包含的病人个数就是样本量。最有名的就是肿瘤的判定,尤其是现在基因信息维数很多,就是指标个数多了,一名研究者可获得的案例数比起来通常不太多。关于那个高维的例子就说好比用基因信息诊断是否得了前列腺癌。有一个有名的研究中收集了102个疑似病人的12600个相关基因信息。这里12600是维数,102是样本量。可以看出维数相较于样本量是非常大的。

夏: 那么,你们怎么解决这个问题?

黎:回到前面,所以我们面临的问题就是可能需要处理一个过度复杂的模型。而那在现实里通常是不现实的。因此当代高维统计分析的核心任务就是降维,也就是降低真正有用的模型的复杂度。其中的策略主要有两个,一个就是变量筛选,就是我们假定有些变量也许对我们关注的问题无关,好比上面的癌症诊断例子,12600个基因中也许很多基因与前列腺癌其实是没有关系的,那我们就可以把那些变量从我们的分析中直接扔掉。也就是说,那些无用的信息好比噪音,我们应该弃之如敝屣。这样我们的模型复杂度相应的就被大大简化了。

夏:这个解释很好啊~

黎:另一个策略就是发现涉及到的诸多变量相互关系中的某种”稀疏性“,也就是虽然模型涉及到的变量个数比较多,但是模型的复杂度也许并没有我们想象的那么高。好比一个涉及到100个金融资产的投资组合,为了得到最优投资组合,我们希望得到资产价格两两之间的相关性,这个问题的复杂度是非常高的(它们的协方差矩阵里有5050个未知参数)。但这100个资产价格之间的相关性很可能主要可以由少数几个关键因子解释,这几个主要因子可能是宏观经济因素,行业板块因素,政策因素等等。也就是说刻画两两相关性的模型也许比我们想象的简单的多。如果我们能巧妙的利用这种合理的简化,那么模型的复杂度也会被极大的降低,统计分析从而也就成为可能了。当然,如何合理的筛选变量或者发觉模型中的某种稀疏性需要严格的统计理论以及具体的应用领域理论来支撑。这些也大体就是高维统计研究的主要问题。我这一大段话是试图画一个大的图景,而我自己只是这个研究洪流中的微不足道的一支,只是做了一点点工作。

经济学研究获麦肯锡奖

夏:能谈谈你在经济管理方面的工作吗?
黎:我做过的经济学实证研究方面的内容主要是与同事合作分析中国的城镇居民收入数据,涉及的议题包括性别收入差距和总体的收入差异变迁等。(记者注:此研究获得首届麦肯锡经济学奖http://www.mckinsey.com/locations/chinasimplified/mckonchina/news/economics_award2008.aspx)我也在做一些管理学中的实证研究,涉及质量控制,信息系统采纳对公司绩效的影响等等,不过都还只是在起步阶段。
夏:哇,这个有啥猛料可以爆的么?

黎:我与我的同事迟巍教授合作写作了《玻璃天花板还是黏脚的地板?——调查中国城市男女性别收入差距(1987-2004年)》的论文。我们的主要发现是:在过去20年里,中国城市劳动力性别收入差距快速扩大,而这一差距在低收入阶层中更为明显。这一发现和国外发达国家的情况有很大的不同:国外的研究通常发现“玻璃天花板”的作用更大,也就是高端女性面临的性别收入差距与低端女性相比更大。我们进一步的研究结果表明,性别歧视比教育背景、工作经验等其他因素更多地造成低端男女收入差距的日益扩大。

夏:那为啥在中国,是在低端更大呢?在国外中产阶级力量较大,是么?

黎:因为低端劳动力供应过剩啊。高端具有相对稀缺性,所以没有太多歧视的空间。发达国家居民整体教育程度高专业技术水平高。就是说如果企业有更大的选择空间的话,就很可能表现出在雇佣选择以及升迁决策方面的歧视性倾向,而那会反应在数据当中。这个议题不算太有意思啦,其实。我们只是使用了更加现代合理的计量方法,使社会现象通过数据以及更合理的数据分析得到印证。

夏:那么解决的方法是什么?

黎:对于中国目前的低端歧视问题,或者更广泛的对于中国就业市场中的各种歧视,我们的书生化的建议还是冀望于严格的立法和执法,以及由此推动的对个体尊重的社会良序。我想歧视的解决之道只此一途吧。一种例子是可以比照美国,看具体的员工性别比例之类的。国内招聘以及晋升当中有很多明显的歧视啊,只是根本没人管。在中国,约束企业歧视方面无法可依或者有法不依依然是普遍存在的。这也导致普通民众对歧视性的政策和现象习以为常。

0
为您推荐

13 Responses to “科学圈圈坐之五-黎波”

  1. cobblest说道:

    嘿嘿,沙发

  2. 灰卡说道:

    支持支持!

    我一直觉得松鼠会应该有一些类似统计这样的有一定学科跨度、与社会生活关系相对更紧密的文章。

  3. anpopo说道:

    顶顶顶~
    第一段末尾是不是有个小bug

  4. anpopo说道:

    啊,改好啦

  5. 说道:

    Fujia还是能用的嘛,那还要不要改夏如呢?

  6. zhang说道:

    cool~ 师兄好~

  7. maokk说道:

    量子数学?

  8. comac说道:

    这位老师说话真是实在,喜欢!

  9. 邓一硕说道:

    吴喜之老师曾经说过:"新的数据结构的产生最能推动统计学的发展"。我认为金融领域的数据结构就是推动统计学发展的一个动力,不知道黎叔怎么看?