首页 >> 活动 >> 文章

2012年3月3日,日期中双3,让思维奔逸一会儿:把其中一个做镜像变换,和另一个组合,最后施展宅男的屠龙之技:推倒!便得到了也许是最玄秘的数学符号:∞。历史总是存在惊人的巧合,科学松鼠会的第五期科学报道工作坊,恰好在这一天举行,主题是:别让数字吓到你。

以下内容整理自中国传媒大学电视与新闻学院教授沈浩老师的发言,沈浩老师有15年的统计和数据分析的市场经验,擅长数据挖掘,定量模型还有传播上的研究。沈老师的微博:http://weibo.com/shenhaolaoshi

如何用数字讲故事

先看一则例子:

假设你得了一个病,有万分之一的死亡率,有一种药物吃了以后可以把死亡降到零,你愿意花多少钱买这种药?___(请脑补你的答案)

假设你很健康有一种新药服用会有万分之一的几率死亡,医药公司给你多少钱你才愿意用这种药?___(请脑补你的答案)

脑补完毕?从本质上来讲,两种情况其实是等价的:都是用钱来交换万分之一的死亡率。可这两种情况你开的价恐怕连数量级都不一样!这个例子说明,数字对应的上下文不同,给读者造成的印象可能相去甚远,那么,如何用数字讲好故事呢?

统计是"脑具"

统计,可以使人聪明,所以也是一种"脑具"。但同时,统计也是说谎的最佳工具。统计不说谎,说谎的是人。要避免把统计数字成为说谎的一个最佳工具,所以首先要避免误用统计。

当面对某个统计结果时,首先需要了解它的调查的来源,调查主体,调查方法。崔永元说过,收视率是万恶之源。媒体尤其是电视媒体,经常报道收视率,收视率怎么来的呢?收视率是什么概念呢?

朴素的讲,收视率10个点的朴素的想法就是一百个人有十个人在看电视。收视率非常重要,举例,节目广告可说是是当地的经济晴雨表。

收视率是怎么来的?怎么调查它呢?如果想在北京做一个基础性研究,比方说调查6000户人家,了解6000户人家的收视结构,涉及性别、年龄、家庭户数,电视机。从6000户人家选择600户,在抽样的电视机上安装人员测量仪。视频信号进入仪器,看电视要用分发的摇控器,它比普通的遥控器多了一些按纽,上面写着爷爷奶奶、爸爸妈妈、儿子1、儿子2、女儿1、女儿2,如果夫妻俩看按爸爸妈妈,一个信号传输出去并被记录,以此类推。通过计算机去算出在这个时间段内,这个样本户几点看什么。

想象一下这个过程,如有人喜欢看韩剧,怎么样?一动不动三小时。很多男性,喜欢拿着摇控器转一圈一圈换台,相对仪器的可擦洗存储器需要的容量很大。前者一晚上只有50条信息,像后者就得500条。600户365天,造成的成本非常高。这个角度看就需要区分出有效收视时间。

不光有收视率还有收听率、阅读率、点击率。这是我们媒体主要的四个指标,延伸出来很多,千人成本等等概念。崔永元提出来收视率是万恶之源,批判的角度没有问题,但是批判的科学性有问题。崔永元指出,以日本为参照,这么小的土地,它的数据样本要1.25万个才达到科学分布,索福瑞样本号称6000个,但中国起码要12.5万。那么,从统计学角度看,12.5万的样本数量合适吗?多大的样本能够代表整个北京市的人?

这就是一个抽样调查问题。理论上最好的是普查,但普查有时候它的精度还不如抽样调查,有时候普查甚至会比抽样调查精度还差。那选多少样本合适?比方有一锅汤大家想尝尝咸淡,无论锅是多大的直径,如果弄匀了,几口可以知道咸淡?最多两口。把汤弄匀了容易,把人弄匀不容易,如果能够弄匀了,样本量上来讲,一般的社会调查,大部分样本都是在1200、600、400、300、200。这个调查里面有时候科学的抽样,可以控制住抽样误差,它还有一个非抽样误差,那就是人的因素。崔永元在说收视率万恶之源的时候,不是样本的问题,是一个商业问题,因为人们在利用收视率的时候,收视率被过度的解读了。

什么是统计错误

统计有理论的错误,实践的错误,人的错误,程序错误,错误到处都会有,最典型的是问卷产生错误。如果做一个关于吸烟的调查,问去年全体中国人吸了多少只烟?谁也数不过来。做关于游艇的问卷调查呢?可我们连游艇都没见过。再者,用问卷调查偷税漏税现象,你要是真的回答了,是不是你经常偷税漏税?

记住一点,统计不告诉你因果,因果来自于你的理论假设。

比如,调查用户满意度,得到的结果可以作为衡量用户忠诚度的指标。可如果观察到小树长高,婴儿同时也在长大,两组数据间的相关性非常高,但显然不能推断出小树长高,所以婴儿长大。强调,统计不告诉你因果,统计只告诉你相关,因果不来自于统计,来自你对事物本质的认识。有个常开的玩笑,说平均人不是人。不能说深圳人工资高,你是深圳人,你工资很高,不能做这样的结论。类似的说皇帝在北京,我是北京人,可我肯定不是皇帝。这种区分主体的层次的例子,在日常生活中经常会引用,当说群体的概念,往往用了个体的某个人的形象,某个人物来说明,这就犯了主体层次的错误。

另一个问题是统计的显著性并不代表调调查结论有怎样的重要性。比如,假如有足够多的样本,可以统计出男生比女生在同一学期,会多花一块钱。可这个结果不一定可以说明什么。为什么?统计上的有意义不代表生活上有意义,一个很显著的统计结果很可能完全没法应用到实际中。

再请想想什么是概率,概率就是事物发生的可能性大小,但是从统计的角度来讲,概率是相对频率在统计意义下的极限。极限就是无穷接近,永远接触不到。

最后,来看看平均数。

算术平均,几何平均,调和平均,是不同的概念。税务部门来了商家可以调用调和平均,如果有人说到我们单位干活吧,工资怎么样?是不是该说最大数?还是那句,统计不犯错,犯错的是人。即使形状一样,可能中心不同,及时中心一样,可能离心不同。详细内容可见沈浩老师的博客:如何正确使用平均数

12919ab7afcg213

最后去思考一组问题,我们研究的是人,看到数字时,一定要想到数字后面,是什么?是人!收视率背后是什么?是人,GDP背后是什么?还是人。社会科学大部分都是人的问题,看数字一定要看到数字后面的人。统计不是管数字的,是思考方法,让我们可以把事物从内脏翻出来,得到本质。如果不能量化,就不能去理解它,不能理解就不能控制,不能控制就不能改进它。再者,要意识到什么是预测,它是一个路标,但是目标!人的思维方式,更多是线性的,线性就是简单,简单就是因果,就是成比例。可进入到更加复杂的现象中。需要能够去思考转折点,也就是非线性的规律。最后,希望从事人文科学的人,有更好的诠释,而不是解释的的能力,通过这些多学一点统计,让你变的更聪明。至少据说好像研究表明,人的一生中如果数学好,挣的钱会多一些。

会说话的统计图形

在涉及统计的的科学报道中,常常让记者犯难的是,如何向读者精准的传递统计结果背后丰富的信息。而统计图形相比文字,往往可以更直观、简洁的完成表达。如何使用统计图形这个强大的工具,使之成为工作中事半功倍的好帮手?使用统计图形又有哪些原则需要遵守?如何避免误用统计图形,造成表述错误呢?以下内容,整理自中国人民大学概率论与数理统计硕士,"统计之都"(Capital of Statistics,简称COS)主站编辑,魏太云老师的演讲,同时感谢他的同学中国人民大学精算专业硕士,COS论坛管理员邱怡轩参与制作ppt。文字基本誊抄自原ppt,后附下载链接。希望能对记者朋友在今后的工作中有所助益。

作图原则

评价一副统计图形,要遵循一些几条准则,可以用六个词来概括:理解性、清晰性、一致性、有效性、必要性、真实性。具体来看:

  1. 理解性: 是否正确体现变量间的关系?
  2. 清晰性: 最重要的元素或关系是否够清晰够显眼?
  3. 一致性: 元素、符号形状、颜色等和之前类似的图形是否一致?
  4. 有效性: 是否达到了化繁为简的效果?图形是否容易解释?
  5. 必要性: 图形及图形元素是否都是必要的?
  6. 真实性: 图形元素的大小是否体现了真实值?

如何满足上述六点要求呢?遵循如下注意事项将会提供帮助:

  1. 注重结合数据处理& 分析
  2. 主次分明,需要表达什么信息?确定相应图形元素的重要程度,不要喧宾夺主。
  3. 性价比高:简洁。
  4. 不要太艺术化!
  5. 勿忘文字解释。
  6. 注意色彩、布局、心理因素等细节。

举例说明最后一点,首先,在新闻报道中,不能利用视觉欺骗误导读者,这是原则,以此为前提讨论如何布局统计图形才有意义。首先,人眼感知精度从高到低排了以下顺序:

  • 1. 位置
  • 2. 长度
  • 3. 斜率和角度
  • 4. 面积
  • 5. 体积
  • 6. 颜色(顺序:色调、饱和度和亮度)

下面以实例来来展示统计图形的优势。

化繁为简,综合表达多类型元素

请看下图:

该矩阵图由16位宋代词人作品间的相关度组成,每个矩阵元素表示两个作者间的作品相关度,旁边的长条图形不表示纵坐标,而是图例说明,颜色越趋向蓝色,0点以上表示正直,以下表示负值,以粉色显示。圆圈的大小表示相关度的绝对值。关于该图的详细作图过程,可参见 谢益辉即将出版的《现代统计图形》一书。

可以看出,相关度可以分为6个等级:

  1. 马钰、丘处机、谭处端、王处一(全真七子之四)
  2. 晏殊、李煜
  3. 秦观、周邦彦、欧阳修、晏几道
  4. 姜夔、辛弃疾、黄庭坚、苏轼
  5. 李清照
  6. 柳永

可以看出,全真七子间的作品相关度非常高,而柳永和李清照则属于相对独特的作者。

还是关于宋词,下图连线代表宋词中常见词的关系指数,可发现有逍遥和自在的联系非常紧密。

总结上图,对于相关性,第一类是自然、逍遥、物外、无为、蓬莱、这些都是修道的词。如果对宋词比较感兴趣可以品味一下。下面是详细结果:

  • 第一类(21 个节点) : 自然、逍遥、物外、无为、蓬莱、修行、清净、山侗、长生、功成、云水、自在、马风、神仙、水云、风仙、自有、日月、赴蓬、功行、虎龙
  • 第二类(9 个节点) : 人间、风流、无人、归来、江南、万里、千古、当年、寂寞
  • 第三类(8 个节点) : 归去、落花、风雨、如今、芳草、不见、人不、夜来
  • 第四类(7 个节点) : 尊前、万事、白发、相逢、人生、青山、几时
  • 第五类(5 个节点) : 千里、多少、回首、月明、昨夜
  • 第六类(5 个节点) : 今日、去年、时时、日日、从今
  • 第七类(4 个节点) : 春风、多情、无情、杨柳
  • 第八类(3 个节点) : 东风、风吹、无限
  • 第九类(3 个节点) : 相思、梅花、花开
  • 第十类(2 个节点) : 明月、清风

这两个图都是数据分析和图形展示,你单独说绘画,他不懂里面的模型。如果你单懂统计,展示的是数据,也不直观。而设计优良的统计图形,让这些问题迎刃而解。

直观的展示更准确的统计信息

下图是美国大选的"势力图",蓝色的州表示奥巴马获胜,红色的表示麦凯恩获胜。直接从地图来看,似乎红色占多数,但事实上美国各州的面积与人口不成比例,例如加州的人口就非常多。

再看这幅图,是物理学家设计的,对美国的地图进行了扭曲,使得面积与人口是成比例的。从图中可以很清楚地看出,加州的面积被放大了很多倍,而北部的几个州就被极大地缩小了。再看一下红蓝的对比,就可以很清楚地发现奥巴马的蓝色是占多数的了。

下面来看一组图:

09 年圣诞节骑士与湖人的NBA 大战。第一幅图展示了球员之间的助攻关系,被箭头指向的球员表示接受了队友的助攻。例如,右边核心位置的詹姆斯曾为5 位队友助攻,而奥尼尔则没有为任何人助攻。同样,左边的科比则是"三进三出"。

第二幅图展示了球员在球场上的投篮位置以及命中的结果。"球场"的左侧是骑士的阵地,也就是湖人进攻的一侧。圆形的点表示成功进篮的投球点,叉形的点是没有命中的尝试。图中图形的颜色表示了投球点的集中程度,越深的地方说明投篮越集中。很显然,大部分的投球点都是在篮筐下方。

上图是Facebook 在全球的好友关系图。每一根连线就代表了两个人之间是好友关系。这个应该是两个城市间的好友关系强度,线越粗两个城市间好友组数越多。越亮的地方说明用户数量越多,主要集中在北美和欧洲地区。而亚洲和非洲大陆则相对要暗一些。

善用作图软件

用动画的形式展现的气泡图: http://www.gapminder.org/。作图软件叫GapMinder,可以自由下载。

以上是善用统计图形的成功案例。那么,有什么需要避免的错误呢?

化简为繁,得不偿失

上图分别是误用3D(右饼图)和在不必要的情况下使用3D的案例(左侧)。

这幅看似很复杂、很炫目的图形其实只反映了5个数字:在5 个年份中,大学招收学生的年龄结构(25岁以上或25 岁以下)。过多的图形元素反而不如直接给出5 个数字来得直观。一幅图形可以用三种手段之一来装潢,一是让人眼花缭乱的颜色,二是3D效果,三是伪装得就像有丰富的内容一样,而这幅图动用了全部三种手段。

图形设计不当,造成误导

在真实的数据中,美国木匠的收入大约是罗买提亚的两倍,但反映在平面图形上,面积的大小对比就变成了四倍,造成误导。

上图表示增长趋势,通过坐标轴的伸缩,很容易使读者对趋势的大小产生误解。

信息表述不清晰

外国媒体同样会犯错误。英国《卫报》在2011 年1 月19 日发表的一篇关于中美实力对比的文章。每一根"辐条"表示一项对比的内容,红色表示中国,蓝色表示美国。图形原本的意图是将数值大小与"辐条"的半径成比例,但就视觉感官来看,会让读者觉得是与面积成比例。例如中国的人口是美国的4.3 倍,但直观地从面积来看,则远大于这个数了。

上图表示各公司不同评判指标的雷达图。每种颜色的多边形在每根轴上的延伸程度代表了它在这个指标上的取值大小,例如QlikView 公司在各方面都有较好的表现。图形的缺点是颜色堆叠太多,无法展现出有效的信息,而且不同公司的图形会相互覆盖,损失了很多信息。

第一张图中图形对比了各国人每天的时间安排,每一个环形图代表一个国家的人,环形中的各个部分表示每天的时间分类。这个图的缺点在于肉眼很难在不同国家之间进行比较。

第二张图则显得更加直观,每个国家中间的轴线是所有国家的平均水平,蓝色线段偏左或偏右的程度表示了这个国家的人相对于平均水平的时间倾向,如日本人在工作和学习上的时间远大于其他国家,而法国人在吃饭和睡觉上的时间则是明显的更多。

上面三幅图,都是在诠释美国的失业风暴。

第一幅图原为动态,动画的体现可能会使得图形有很多重叠,所以应该尽可能将信息反映在静态、平面的图形上。

第二张和第三张图形反映了每个州在一段时间内失业率的最大值、最小值和当前值,更利于比较。

分类太少,而且颜色的选取没有照顾到色盲的人群。

分类太多时用饼图无法有效地展示信息。

以上就是第五期科学报道工作坊的回顾,诸多精彩之处,难以尽表,欢迎大家来下一期现场体验。


会说话的统计图形slides原件下载

本期工作坊随堂手册下载

0
为您推荐

24 Responses to “科学报道工作坊第五期回顾:别让数字吓到你”

  1. Neo说道:

    静候楼下吐槽facebook

  2. 假行僧说道:

    有所启发

  3. 又又小圆脸说道:

    指出一点"强调,统计不告诉你因果,统计只告诉你相关,因果不来自于统计,来自你对事物本质的认识" 这不对吧。统计泛指数据分析,并不是数据分析决定能否告诉你因果。是研究的方法和性质。实验性研究和cross-lagged correlations是可以告诉你因果的。"来自你对事物本质的认识" 这....

  4. MCGTH说道:

    假设你得了一个病,有万分之一的死亡率,有一种药物吃了以后可以把死亡降到零,你愿意花多少钱买这种药?___(请脑补你的答案)

    假设你很健康有一种新药服用会有万分之一的几率死亡,医药公司给你多少钱你才愿意用这种药?___(请脑补你的答案)

    一个是花钱救命,一个是你本来没病,药物公司给你钱让你去找死,当然不一样···

    • u2takey说道:

      这文章水平太低了,第一个例子就有问题。你说的没错,一个是花钱救命,一个是找死,当然不一样。心理学里头有个原理叫lose aversion可以解释这个现象。这作者一点心理学的常识也没有。

      • null说道:

        “数字对应的上下文不同,给读者造成的印象可能相去甚远”不矛盾啊

  5. fantianlai说道:

    图文并茂,对统计图的使用受益匪浅。

  6. 焦淑华说道:

    吓得不轻哦~~ 8O

  7. 魏亦凡说道:

    :shock: 8O :x [困]

  8. 小样是腿模说道:

    我看完第一段就直接拉到下面的评论,果然已经有人指出来了.
    连免死和找死都没分清楚.....这文章
    果断留完评论走人,正文懒得看了

  9. gebagong说道:

    第一个例子的确是心理学范畴的东西。但正文里还是有很多有用信息的,这么长,楼主不容易

  10. 11说道:

    我到觉得第一个例子挺好啊
    但是我关心大家到底填的多少?!
    大家都说说

  11. lyem说道:

    人口中逻辑能力与智商孱弱的比例确实总是令人非常担忧,上面有几位又勾起了这种担忧。

    死亡率0.01%-->0//-money1,,,,死亡率0-->0.01%//+money2

    在理性评价机制中应该是money1=money2的,但对于大多数人来说心理因素的干扰导致2者大大偏离。作者正是要表达这种意思。

    • Sophie说道:

      正文说的是统计数据的trick以及信息的直观表达,跟开篇的例子还真没多大关系……人的行为博弈本就是建立在心理因素上,行为科学中“人怎么想”是被观测的对象,从而提炼出心理和行为规律,而非以预设的“理性”匡正人的所谓“偏误”。

  12. dd说道:

    难道作者所要表达的,不正是扭曲上下文,心理因素会影响同一个数据的表达?

  13. 收视率是怎么来的?怎么调查它呢?如果想在北京做一个基础性研究,比方说调查6000户人家,了解6000户人家的收视结构,涉及性别、年龄、家庭户数,电视机。从6000户人家选择600户,在抽样的电视机上安装人员测量仪www.webwto.com。

  14. L-小東说道:

    一个是寻死一个是避免死。。。怎么一样啊

    • null说道:

      “数字对应的上下文不同,给读者造成的印象可能相去甚远”

  15. 虫虫说道:

    第一个例子只是做题而已,按照人性来说,的确是寻死和避免死的区别,比较不人性!研究任何问题应该把人性考虑进去。有善有恶!

  16. 周赛说道:

    我们家参与过电视收视率的调查。我们看一个台超过15分钟的时候就把它写在登记表上面。结果一个月之后,我们都发现自己看电视的时间变少了!因为懒得填登记表……

  17. 周赛说道:

    此外我们还发现使用公勺公筷可以让吃菜的数量变少。。。

  18. 差点没有被吓晕!拓步ERP软件http://www.toberp.com

  19. 那啥呀说道:

    第一个例子就出问题了 还“本质上是一样的”
    一个是可能会死,一个是本来压根儿不会死但吃药可能会死 这叫一样吗?!