当前位置:首页 > 范文 > 统计数据会说谎读后感锦集

统计数据会说谎读后感锦集

格式:DOC 上传日期:2024-09-09 07:35:34
统计数据会说谎读后感锦集
时间:2024-09-09 07:35:34   小编:

《统计数据会说谎》这本书深刻揭示了统计数据的局限性和容易被操纵的性质。通过丰富的案例和分析,作者指出统计数据在实际应用中可能产生偏差,甚至误导决策者。读完这本书让人对统计数据产生了新的认识,提醒我们在接受数据时要保持警惕,不盲目相信数据背后的真实性。

《统计数据会说谎》读后感(一)

因该书发表的时间距今已有近半个世纪,所以里面的统计学的骗术对现在的人们来说已是小儿科了,没有那种书名让人以为可以得到的恍然大悟的感觉。与其说各种伎俩能屡试不爽关键是来源于人们对统计学的无知,更多的是钻了人们懒于思考、容易被导向煽动的空子。在任何一个领域想不被骗除了增强对相关知识的了解,最重要的是需要加强自己的独立思考意识:对任何知识和讯息不要不加思考的接受—当然首先需要强大的逻辑大脑和冷静的心灵!

《统计数据会说谎》读后感(二)

作者利用大量真实案例生动、直观地揭露了在广告、新闻、医学等各个领域中,某些别有用心的人是如何利用统计数据撒谎的。很显然,作者认为这些人为了某种利益是故意这样做的。该书对这些统计数据的谎言进行了成因、造假手段、如何鉴别等方面的揭露,为普通人避免掉入广告商、政治家们的谎言陷阱提供了指引。该书只涉及到一些入门级的统计学知识,比如均值、中位数、样本数量、信度与效度、幸存者偏差、抽样误差、系统误差、归因缪差、相关性、因果倒置等。懂一点统计学知识的读者会看得更有趣,更有共鸣。

《统计数据会说谎》读后感(三)

统计学科普好书,尤其是在如今的信息化时代,要警惕统计数据,不迷信不盲信。

统计学一般流程:确定主题—收集数据—整理数据—分析数据,本书揭露了各个环节可能作假的情况,并给出了有效的避免受骗的方法。

确定主题:无事瞎忙。

收集数据:选择过小的带有偏差的样本,调查员等都会影响数据的代表性。

整理数据:利用图形图表进行夸大或含糊其辞,精挑细选平均数。

分析数据:混淆因果性和相关性,看似相关的数据。

避免受骗的有效方法:问一问:谁说的?他怎么知道的?漏什么了吗?偷换概念了吗?合乎常理吗?

我们不可能对每个数据都问一遍,在信服数据前只要想一下是谁说的就能帮我们避免绝大部分骗局了。

书籍如果能按照统计学流程编排展开会更有逻辑。

《统计数据会说谎》读后感(四)

在几十年以前写这样的书,感觉很了不起呢。不过我觉得对于本科学历,修过概率统计,平日也对生活有足够观察的青年就不用看了。

sec1 带有偏差的样本 统计耶鲁大学毕业生的平均工资。样本来自于有详细地址+回复了问卷的毕业生,引入了偏差。 且回复的信息也不一定是实话。 分层抽样的设计也很难。 sec2 整体不符合正态分布时,使用平均数、中位数、众数的差别很大,具有欺骗性。例如使用平均数来描述某一群体的工资。 sec3 统计描述中丢失一些重要信息,会让结论变得无意义。比如仅仅列出实验效果,却没有给出实验样本量。毕竟对于小样本实验,几乎出现任何实验效果都是有可能的… 所以,我们要关注一下实验的显著性水平,置信区间。 此外,看图表也需要留意一下图表中的横纵坐标… sec4 这一章介绍了几个案例,来说明很多调查结果的数据不能用于做决策,例如哪个孩子更聪明,哪种香烟更健康,感觉可以用于引入假设检验的概念。 例如儿童智力测量结果,因为存在误差,真实结果应该是在某个置信区间内,因此不能凭借测量结果来判断智力检测分数分别为98, 101的两个孩子哪个更聪明。 sec5 图表可能具有误导性,要关注图表的横纵坐标。 sec6 图例可能具有欺骗性。本来是2:1的对比,一维的图把长宽都画成2:1,结果造成的视觉效果变成了4:1,具有欺骗性。 sec7 有些数据乍一看能作为论据,但其实跟想证明的结论没有关系。比如晴天开车发生的恶性事故多于雾天开车发生的恶性事故,并不能说明晴天开车更危险,只是因为晴天的日子多于雾天。 sec8 混淆因果性和相关性。 某岛民们相信身上有虱子会让身体健康,这就是误把相关性当做因果性的例子。因为身体虚弱者,例如发烧的患者不吸引虱子,所以身上的虱子数量确实跟健康程度相关。但发烧、身体虚弱可能正是由于虱子导致的。 sec9 总结不出来。有一部分是工会相关的例子,还有一部分例子感觉在中国接受了小学教育之后就不会上当受骗。 sec10 回顾总结本书的法则,补充案例。

《统计数据会说谎》读后感(五)

今年已过了大半,年底大概又要被涨工资了。

————————————————————

这书出来50多年了,里面提到的一些统计上手段在数学课上其实老师有提到过。

数学课本上含蓄的称之为——统计误差。

一、哪来的数据

有些事情可能从一开始就注定会得出一个错误的结论,比如选择了一个错误的样本。然后你一切的努力,都是南辕北辙。

老师要求的是样本量要大、覆盖面要广、要有代表性。

老板大概不是这么要求的。

顺便提一句,不知道全国新生儿性别比是怎么算的,如果新生儿性别比是将各地基层系统里的数据定时截取再算出来的话,大概也是靠不住的。因为工作的关系,接触了一点这方面,小地方一年的数据,使点小手段能相差3、5个点,而且大概率不被发现。

至于为什么要这么做,因为有个东西叫考核指标。

二、给你看什么数据

收集到的东西,你能看到的也只是被加工处理过的。

倒不是说造假,毕竟缺乏监督的造假太低级了。

中位数、众数、平均数都是合理合法,再挑个合眼的大概也无可厚非。

转换成柱形图、扇形图、折线图、单位怎么选、起点怎么选、同比还是环比、、、

大概心理学的要求比数学还要高一点。

三、得出什么样的结论

兜兜转转一大圈,得出个老板不高兴的结论,估计你很快也要不高兴了。

其实经过了有选择的样本和数据处理后,基本就能得到满意的结论了。不过书里面提到的“看似相关的结论”总是莫名让我想到那个关于蝴蝶效应的描述“ 一只南美洲亚马孙河边热带雨林中的蝴蝶,偶尔扇几下翅膀,就有可能在两周后引起美国德克萨斯的一场龙卷风 ”。。。。

毕竟事情的结果收到很多因素影响,带着预定的目的去进行统计,自然会将看似相关的数据强加到佐证结论上。

知道骗子的手段,才能尽量降低被骗的概率吧。不过这本书50多年了,这些手段还在继续用着,大概就是所谓的防不胜防了吧。

《统计数据会说谎》读后感(六)

生活中充斥大量数据。我们迷恋数据,因为它“直观、有说服力”。 现实真的如此吗? 我越发觉得,“统计数据会说谎”。 比如,某护肤品据称有极佳的美白嫩肤功效,理由是试验xx周,76.3%的使用者声称有皮肤变白了,变嫩了。 这是一个较容易辨别的误导性结论,大家可以说“声称”不一定是事实。 那如果去掉“声称”,加上前后对比图呢? 我相信,大部分人会增加信任度。 而《统计数据会说谎》会用“脚”投票反对。 作者会提出多个问题,如:使用者一共有几个?与其他的产品对比效果如何?有没有其他因素影响结果?这个结果是什么时候调查的? 如果只有15个人,这个百分数明显说服力不强。如果这个功效并不是同类产品领先的,单单功效因因素不足以支持消费者购买。如果试用者还用了其他护肤品,那么结论的说服力不强。如果是在试用者洗完脸后调查的,说服力也不强,因为洗脸后皮肤会显得好。 《统计数据会说谎》就是这样一本揭穿统计数据谎言的书。 这些谎言一部分是人为,一部分是不经意。但无论哪种情况,都大大影响了我们的判断能力,最终可能会导致我们作出错误的决策。 这本书也不厚,而且插图很可爱。如果从头读到尾,也就3、4个小时。 相信它会是你揭穿统计数据说谎的简单利器! 最后,感谢@任琦琦 77赠送的《统计数据会说谎》,让我发现了这么一本有用的书。

微博@啊中旬 知乎@啊中旬

转载请说明

(思维导图中,反驳版可以当作简单模板,用于识别数据)

《统计数据会说谎》读后感(七)

1. 在处理各类问题时,抽样过程是你所接触到的统计学主要内容的核心。其基础原理非常简单,尽管在实践中其精细到已衍生出了各种分支原理,而其中一些并不可信。......如果样本规模够大,且选择得当,那么它在大多数情况下完全可以代表整体。否则,这种方法还不如高明的猜测来得精确,除了营造出一种所谓的科学精确性的虚假氛围,这种方法毫无可取之处。可悲的是,各种各样的结论就是从这些要么带有偏差,要么过于微小或二者兼而有之的样本中获得的,而我们却并不知道自己所读到的这些结论或自以为清楚的这些结论来自这样的样本。(p5)

2. 只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。(p37)

3. 在没有重要数据的情况下,千万不要轻易相信一个平均数、一张图表或一条趋势线。否则,你就会像一个只凭平均气温选择露营地的人一样盲目。(p49)

4. 样本代表整体数据的精确度可以用数字来表示:概率误差和标准误差。(p55)

5. 也许在所有类型中最狡猾的那类也最为普遍:两个变量之间不存在因果关系,但变量之间的确存在着某种相关性。有的人就通过这种方式干了不少龌龊事。......尽管这些数据变量之间的确存在相关,但所谓的因果关系也不过是一种推测而已。(p102)

6. 必须要谨记:就算某种相关性存在,并有真实的因果关系,你仍不能凭此进行决策。(p104)

7. 任何根据小规模样本得出的百分数都具有误导性,与其这样还不如直接给出原有数据来得可靠。如果将这个百分数精确到小数,就不是愚蠢而是欺骗了。(p123)

8. 任何根据小规模样本得出的百分数都具有误导性,与其这样还不如直接给出原有数据来得可靠。如果将这个百分数精确到小数,就不是愚蠢而是欺骗了。(p123)

9. 你可以提出5个简单的问题来探讨,从而通过问题的答案来避免被一些明显似是而非的东西所迷惑: 是谁这么说? 他怎么知道? 漏掉了什么? 有人偷换了概念吗? 这是否合乎情理? ( p140-155)

《统计数据会说谎》读后感(八)

曾经的英国首相迪斯雷利有一句名言:“世界上有三种谎言:谎言、弥天大谎和统计数据。”美国统计专家达莱尔则在经典之作《统计数据会说谎》一书中,诠释了这句话的内涵。虽然此书于上世纪五十年代写就,但今天读来全无过时之感。古往今来,我们一直在被数据哄骗,又如法炮制数据相互伤害,唯一不同的是,“撒谎”的媒介从报刊杂志走向了公众号。

达莱尔用幽默的例证向我们证明:我们以为童叟无欺、公正的数据,其实极有可能被“统计操纵”,成为某种精准的假象,并且,那种小数点后的数字尾巴、百分数、累加等都是再通俗不过的伎俩罢了。举个书中的小例子,作者自嘲:“这本书凝聚了长达187年的出版经验”,听上去无比厉害,究其本质,其实是作者、编辑、插图作者、印刷工、装订工年龄相加所得。只呈现具有迷惑性的数据统计结果,却英雄不问出处,不讲数据来源,最终把读者搅得一惊一乍。

《统计数据会说谎》一书中,大致归总了如下八种数据骗子的行径:

第一,“随机”抽取小样本。

第二,平均数、中位数、众数,哪个顺眼用哪个。

第三,用文字游戏掩盖小规模样本。

第四,概率误差。

第五,改变坐标轴,数据图看起来大不同。

第六,采取图像几何级增大,障眼法再升级。

第七,“相关”数据其实不相干。

第八,不合时宜的逻辑归因,这是一种相对复杂的高级骗法,需要想象力加大忽悠。除了书中所举的例子,还有一个经典的社会学例证可以作为典型:根据统计数据,在斑马线上发生的人车相撞事件远多于道路其他地点,所以,走斑马线更容易发生车祸。这一荒谬的结论却有统计数据撑腰,其实只是简单玩了概率与归因谬误的小伎俩。真实的情况是:走斑马线的行人总数远远大于乱穿马路的行人,发生事故的绝对值虽然略大,但概率的确远低。

对于不那么容易用常识识破的数据陷阱,应当如何防范,书中亦比较良心地给出了建议,面对数据,多问问如下几个问题:

第一, 数据的背后是谁在说,数据发布机构是否可靠?

第二, 他为什么知道这个数据,想想样本,想想数据的取得是不是靠谱?

第三, 统计还漏了什么?

第四, 有没有偷换概念,数据和结论是不是真的有关?

第五, 合理性,有常识用常识,没常识还可以问问知乎。

当然,即使懂得很多道理,也未必就能成就火眼金睛。数据的陷阱,理论是工具,实践才是王道,终究还是被骗几次才能慢慢参悟罢。

《统计数据会说谎》读后感(九)

“大数据”是个热词。通过网络搜索“大数据”,我们会发现大数据可以实现精准推送,治愈癌症,甚至可以预测未来。大数据似乎无所不能,还与AI黑科技息息相关,但一些关于大数据的推送提出了另一种看法——大数据可能并不那么万能,或许还会“说谎”。而我们常常看到的那些根据统计学基本原理计算得出的统计数据,也有可能会“说谎”,存在着数据陷阱。

早在上个世纪50年代,美国统计专家达莱尔·哈夫就提出,人们所看到的未必是真实的情况,这些数据要么被过于夸大,要么被隐瞒。因此,只有识破并远离数据陷阱,才有可能从统计数据中了解真实的世界,避免被华而不实的数据“欺骗”。

在《统计数据会说谎》这本书中,达莱尔·哈夫列举了很多与人们生活有关的统计数据——除了虚假的广告数据,我们也可能被智力测验的结果所忽悠,并通过这些统计数据,讲述了统计学的基本原理,指出隐藏在统计数据中的“陷阱”。 这些数据中的“陷阱”,可能是带有偏差的样本,可能是经过精挑细选的平均数或者一条趋势线,也可能是视觉效果惊人的图表和形象图,就连地图也可能会“骗人”,简直是防不胜防。

那么,如何才能远离这些数据陷阱呢?达莱尔·哈夫建议我们提出5个问题:

第一,是谁这么说?

提出并思考这个问题可以帮助我们找到偏差,留心文中的描述;

第二,他怎么知道?

第三,漏掉了什么?

除了描述,我们更需要留心的是数据本身。统计数据中的均值和中位数有着本质上的区别,是否给出原始数据也很重要;

第四,有人偷换了概念吗?

就算给出了原始数据,最终的结论也有可能被偷换概念,统计数据的“陷阱”防不胜防,多思考总是没错的;

第五,这是否合乎情理?

这个问题可以帮助我们看清统计数据是否建立在未经假设的基础上,从而避免被外推法的荒谬所误导。

阿蒂莫斯·沃德说,让我们陷入困境的并非我们不知道的东西,而是我们知道但并不正确的东西。达莱尔·哈夫总结的远离数据陷阱的方法或许不能帮助我们避免陷入困境,但通过这些方法,我们可以思考统计数据中可能会误导我们的“陷阱”,从数据中,了解一个真实的世界。

《统计数据会说谎》读后感(十)

作者整本书其实就是想教我们如何正确看待统计数据。书的最后告诉我们通过问5个简单问题即可以找(he)到(li)数(fan)据(bo)统(tong)计(ji)的(shu)坑(ju),总结如下:

1 是谁这么说(数据及衡量数据的标准、方法是否有问题)

1)选择的数据是否有倾向性,比如选择对自己有利的数据

2)衡量的标准是否偏颇,比如对比前先用某一年作为基期,而后又选择对自己更有利的一年为基期;

3)使用不恰当的测算方式,比如选择一个对自己有利的平均数

2 他怎么知道(样本是否有问题)

1)样本是否有偏差

2)样本规模是否足够庞大,以确保结论真实可信(尤其是对待相关性)

3 漏掉了什么(漏掉了什么必要信息)

1)可信测算方式。一个相关若缺乏可信测算方式(如概率误差、标准误差)检验,则没必要当真

2)未加说明的平均数。未说明是平均数是哪一个:算数平均数、中位数、众数。

3)对比。许多数据因缺乏对比而变得无意义

4)原始数据。材料只给出百分数,没有原始数据,通常带有欺骗性

5)导致变化发生的因素。这种遗漏往往暗示其他因素才是导致变化发生的原因

4 有人偷换了概念吗(原始数据和最终结论有没有什么地方被偷换概念)

1)将一件事说成是另一件事。比如调查数据来自用户口述,这就这是他们说的,而非实际真实统计

2)定义的概念发生变化。比如普查的农村数量增加,实际上是统计的农场概念变化导致的

3)将相关关系说成因果关系。比如工厂电力和工人每小时工资不断攀升,没有因果关系

4)“第一”的问题。不特别说明涉及的领域,每人都可以说自己是业界第一

5 这是否合乎情理(是否以未经证实的假设为基础)

1)是否以一些未经证实的公式来作为计算方法

2)是否以一些未经证实的事实作为基础

3)一些看似精确的数据也可能与常识相悖

4)慎重看待预测趋势。不加限制的外推法很荒谬,截至目前趋势或许是事实,但未来趋势不过是预测者猜测,所有事情并不会一成不变

《统计数据会说谎》读后感(十一)

看这本书的过程中,随时会想起《寻路中国》里的一段描述:

不仅仅是官方,即使是我们自己,在生活中也表现出了对统计数据的毫不迟疑的信任,甚至把一个个数据当作了荣耀的勋章,骄傲不已。却不知“世界上有三种谎言:谎言、弥天大谎和统计数据。”我们身陷骗局的漩涡中却不能自拔。

以平均工资为例,根据2017年浙江省全社会单位就业人员年平均工资统计公报,浙江省全社会单位就业人员年平均工资为60665元。看到这个数据,很多人都会大呼自己扯了大家的后腿,并为自己的收入愤愤不平,但这个“60665”的数据,却很值得我们考虑一番。

一、数据的得出的样本

目前来说,这个数据的得出以统计一套表的数据为基准,包括私营单位就业人员和非私营单位就业人员。但值得注意的是,统计一套表的原始数据由各企业事业单位自行上报,能否保证所报的数据符合客观实际?企业有没有为了减免税收而错报的可能?工人工资收入是正式员工的收入,还是包括了临时聘用人员的收入?此外,浙江作为私营企业的集聚地,大老板们的收入是不是也包括在内?

二、平均数的陷阱

就业人员年平均工资,这个平均应该是算术平均(以一套表中的报告期实际支付的全部职工工资总额/报告期全部职工平均人数),而算术平均数却是几个平均数里最不能反映实际情况的一个。假定一个企业有9名员工和1名管理者,9名员工平均工资1000元而管理者597650元,那么他们所得出的平均工资依旧是60665元,但事实上这却表明高的平均工资却是一个假数据,90%的人远远低于这个数据,而这种情况在老板遍地的浙江,却完全有存在的可能性。一个算术平均,完全无法说明是因为贫富差距的持续扩大导致工资的上涨,还是共同富裕所带来的效果。

三、显著性水平和方差

只有算术平均,而没有显著性水平和方差的统计结果,完全无法表明事实的真实情况。因为我们完全不知道什么的工资水平会落在95%的置信区间内。而以此来断定浙江的居民收入都很高?那你完全可能碰到一个贫困至极的村子。

四、标准误差

虽然浙江是民营企业强省,但也不代表所有的人都在企业上班;即使假定所有人都在企业,也不能保证这次的统计已经完全包含在内。那么这次统计的误差是多少?多大的范围下可以使用这个结论?

五、非相关性

很多情况下,我们公布平均工资,是为了表明人民的收入增加了,生活更好了。但其实高工资并不等于好生活。在工资增加的同时,物价增加了多少,通货膨胀了多少。浙江人均工资所增加的部分,有多少是因为高房价所带来的,而这在房价泡沫破裂的时候都会烟消云散。

所以,在看到一个统计数据的同时,我们应该认真地思考下:这个数据是谁这么说;他得出的这个数据怎么知道;公布的内容里漏掉了什么;从调查到公布的过程中有人偷换了概念吗;这是否合乎情理。我们不该再对这个骗子深信不疑了。

《统计数据会说谎》读后感(十二)

第一章 带有偏差的样本

在处理各类问题时,抽样调查是进行统计的最常见方式之一。但能达到“纯随机抽样”(即在一个总体中,每个人或每件事被抽样的概率是相等的)的时候少之又少。实际操作中,样本往往具有偏向性,例如在某杂志中对读者进行总统选举前的民意调查,但该杂志的读者本就是生活宽裕、受过良好教育、消息灵通、警惕性高、着装雅致、行为保守、爱好较为固定的群体。

第二章 精挑细选的平均数

平均数有三种——均值、中位数和众数。各类报道往往以“平均数”一言蔽之,不告诉读者具体是哪一种。比如一个街区居住的大多数是工薪阶层,但有三户是在这里度周末的百万富翁,因此该街区年收入的均值为15000美元,中位数为3500美元,众数为5000美元。当中介推销房子时会使用均值作为卖点,而当纳税人委员会请求降低税率时则会用中位数。平均数的挑选使用都是服务于特定目的的。

Fun fact: 与人体特定相关的数据(如身高),三种不同平均数的取值会非常接近。均值、中位数、众数几乎落在同一点上。

第三章 没有透露的小小数据

只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。比如某牙膏品牌广告:使用该牙膏后蛀牙减少了23%!然而参加测试的用户仅有12人,机缘巧合之下他们迟早都能得出一个值得炫耀的“重大成果”。(居然还有这种操作,我也是服了)

搞不清“正常的”和“理想的”会让事情变糟。比如父母在报纸看到“小孩在几个月时应当学会坐直”,就会马上对比自己的孩子,如果孩子没有实现,他们就会认为自己的孩子“智力迟缓”。而这些“正常”和平均数若是都能表上一个范围,那么父母看到孩子达到了正常范围,便不会再为细微且没有意义的差异烦恼。

没被透露的小小数据之所以带有欺骗性,是因为人人常常意识不到它的缺失。有时候一个统计图的纵轴稍微变更一些(或者干脆不标注),整个趋势线的斜率便会疯狂飙升,给人一种增长迅速的印象。

第四章 无事瞎忙

样本代表整体数据的精确度可以用数字来表示:概率误差和标准误差。比如智商测验的“正常”并不绝对是100,而应该是类似90-110的区间。你必须时刻谨记“±”这个符号,即使它没有明确被标出。

第五章 惊人的图形

折线图纵轴的设定很能欺骗人。因为眼睛无须去“理解”切实的数据变化,所以某些数据上细微的上升在视觉上就变成了大幅增长。

第六章 一维图形

表达30美元周薪和60美元周薪的差距:画一个钱袋表示30美元,画一个两倍高的钱袋表示60美元。这其中内有玄机:第二个钱袋不仅高度是第一个钱袋的2倍,连宽度也是2倍,这样一来,第二个钱袋所占的面积就不是第一个的2倍,而是4倍。数据仍旧是2:1,但大多数情况下,视觉效果可是起了决定性的作用,也就是4:1。

第七章 看似相关的数据

如果你无法证明自己想要证明的东西,那就展示一些其他东西,并假装它们是一样的。

1948年10月共和党发表的一篇竞选陈述就是基于一些貌似相关,实则不然的数据:

1942年杜威(Dewey)当选纽约州州长时,一些地区的教师最低工资为每年900美元。而如今,该州的教师享有全世界最高的工资。1947年,根据委员会的表决,杜威州长安排立法机关从州财政盈余中划拨了3200万美元直接用于提高教师的工资待遇。因此,纽约州的教师最低工资水平提高至每年2500美元至5235美元不等。

真相是!!“之前”指的是纽约州农村地区教师的最低工资,“之后”指的是纽约市的最低工资。所以在杜威州长的领导下,教师们的工资也许提高了,也许没提高。(手动白白)

第八章 因果颠倒

两个钟都走得很准时,当“a”走向整点时,“b”也指向整点。是“a”让“b”敲响的吗?

因果谬误的产生原因,一是机缘巧合之下得出的相关,比如某牙膏品牌的实验。二是“协变关系”,即两个变量之间的确存在相关性,但无法确定哪个是因,哪个是果。

当原本论证的相关数据超出一定范围,结论也会发生变化。比如“雨水越多,庄稼长势越好”。但雨水过多则会有害。

第九章 如何操纵统计

利用统计材料给他人传递错误的信息,即为统计操纵。“今天买了20样东西,发现每一样的价格都比去年上涨了5%,那么加到一起就是100%,所以生活的成本翻了一番。”这都是瞎扯!

如果你的投资回报率从第一年的3%上涨至第二年的6%,那么,你可以低调地将其描述为增加了3个百分点,也可以将其说成增长高达100%。——民意测验投票的惯用手段。

在商业活动中,统计学家不会选择对自己不利的方法,就好比一个广告文案撰写人不会将委托方的产品说成“简陋、廉价”,他要说的是“轻巧、实惠”。

第十章 如何反驳统计数据

是谁这么说?研究总会出现有意识或无意识的偏差,以达到研究人员的目的,证明其想证明的观点。

他怎么知道?要格外注意那些带有偏差的样本。到底是因为选择不当,还是调查者有意识地选择对自己有利的材料从而造成了偏差?

漏掉了什么?留心那些未加说明的平均数,留意原始数据(有时材料只给出百分数而未给出原始数据),留意导致变化发生的因素。有人发布了一组数据,对比了今年四月和去年四月的零售销售额,目的是要证明今年经济处于复苏阶段。但遗漏的事实是,去年复活节加假期在三月,而今年的则是在四月。

有人偷换了概念吗?注意原始数据和最终结论之间有没有什么地方被偷换了概念,比如某种病例被上报的多,并不意味着患这种病的人就多(在特别监测某种疾病的时候,一点小症状也会被上报)。

这是否合乎情理?

《统计数据会说谎》读后感(十三)

许多人觉得统计数据就是存在于新闻里的抽象派。

统计数据?

不就是每隔几年的人口普查?

是每年的GDP增幅?CPI指数?

好像都跟我没什么关系……

但是说到各地的平均工资水平、最低收入、纳税基数,很多隐性贫困人口就感到丧丧的:原来那些良好的自我感觉都是假象,我的收入拖了后腿还不到当地的平均水平???

那我们暂且先不讨论收入这种伤人的话题,就说说最常见的朋友圈爆款吧。

前段时间有关星巴克致癌的文章刷爆了朋友圈,文章称咖啡里的丙烯酰胺会诱发不可逆的基因损伤,60公斤成人每天摄取60毫克丙烯酰胺,患癌风险就将高出500倍。

但是,文章并未就一杯中杯星巴克含有的丙烯酰胺含量进行说明,也并未说明丙烯酰胺产生的原因以及是否在其他食品中也有存在。也缺乏对比含有同样丙烯酰胺跨食品的对比。

这就是文章的漏洞——看似科学的数据深究下来则是不攻自破的谣言。

原来统计数据也会说谎???

这么一来,下次再买买买之前要擦亮眼睛了:那些号称具有N年“科学临床数据”的产品说不定也是骗人的陷阱呢。

美国统计学家达莱尔•哈夫在他的传世之作《统计数据会说谎》中就帮助我们看清那些宣传中滥用统计数据的陷阱,这部作品也曾被逻辑思维推荐。

统计数据会说谎

8.1

达莱尔•哈夫 / 2017 / 中信出版集团股份有限公司

下面,让我们来看一看达莱尔•哈夫借给了我们一双怎样的慧眼来洞悉那些推销员、广告商们营造的数据迷雾的。在《统计数据会说谎》中,达莱尔·哈夫从10个方面说明了统计数据的陷阱和如何反驳看似科学的统计数据。接下来,我重点从样本偏差、有选择的平均数、极端数据三个方面来解释统计数据是如何说谎的。

1、 样本偏差

统计的基础就是如何选择样本进行调查,抽取的样本数量足够大并且分布合理的话选取的样本是能够代表整体水平的。而在选择样本时会因为调查者、样本等多方面因素造成统计出现偏差。

回忆一下大学时你参加的街头拦截调查,你是不是会选择那些看起来年轻、好说话、以学生为主的群体来回答问题。这种情况就是因为调查者有意无意的选择而使抽样年轻化。而且,在参加诸如“你的年收入”是多少的时候,一般人都会虚报自己的收入让自己感觉好一点,而在年度纳税时,则会因为“合理避税”而让自己的收入最小化。

2、 有选择的平均数

算数平均数、中位数和众数都是一种有代表性的平均数。之所以会产生陷阱是因为根据不同的样本选择了没有代表性的平均数。

比方说常常被我们吐槽的平均收入。

大家都听说过二八法则,百分之二十的人占有百分之八十的收入。所以,针对某一群体的收入并没有遵循正态分布,而是一种偏态分布,差不多长下面这样,只不过峰值应该出现在末端。

由于高收入人群会拉高整体的算数平均数,所以针对某群体的收入,采用集中频率较高的众数,或者针对收入由高到低降序排列选择位于中间水平的中位数,可能更有代表性。

3、 极端数据

就是没有透露的小数据。这些没有透露的小数有的是因为样本量很小,有个是隐瞒了在何种水平下数据的差异是有意义的。

说到小样本,在一些广告中展示的临床试验中就很常见。两个贝壳一个涂抹了某牙膏产品,一个未涂抹某牙膏产品,浸没在酸性环境下,涂抹某产品的贝壳更坚固。但是,仅仅这两个对比样本就能说明产品的功效吗?贝壳真的能够代表牙齿吗?

显著性水平,听起来很玄乎,其实就是出现误差的概率。用一个成语来解释显著性水平就很容易理解。十拿九稳,就是出现误差的概率是0.1。因为心理统计挂科过一次,现在想起统计学还是瑟瑟发抖……但回想起来统计学知识真的很有用啊,起码看到某些一本正经胡说八道看起来差异很大表明效果很好的“科学数据”,心中还是能够非常冷静地抱之以呵呵的。

统计学毕竟还是一门博大精深的学科。想想曾经学过的概率论与数理统计、快要挂掉的高数和线性代数,再不济回顾一下中学时的课程或者是你的高考试卷。是不是没有想到统计学的应用是这么的广泛,比起你没有从事的本专业课程应用得更广泛了。

除此之外,统计学还是一种统计分析的批判性思维。这也是丹尼斯·韦特利在《成功心理学》中强调的想要成功的心理学要素之一。达莱尔•哈夫也在《统计数据会说谎》中强调了统计分析能力和读写能力一样,是一种了解真实世界的必备技能。在数字时代,面临海量数据,如何从中筛选出真实、有效的信息,化为己用,而不是人云亦云不假思索地拿来就用,这本《统计数据会说谎》会教会你很多。

《统计数据会说谎》读后感(十四)

让我们陷入困境的并非我们不知道的东西,而是我们知道但并不正确的东西。——阿蒂默斯·沃德

假设你是一个非常爱喝牛奶的人,有一天,你在网上看到一篇医学文章,它告诫人们:爱喝牛奶的人容易得癌症。某些国家罹患癌症的人数不断攀升,正是因为它们是牛奶的生产和消费大户。而另外的一些国家,患癌人数却很少,因为那里牛奶稀缺。

如果你对数据毫无概念,这会你就该大惊失色,盘算着自己该如何戒掉喝牛奶的习惯了,反之,稍微懂点数据统计的话,你就会发现这篇文章的谬误所在:癌症主要是在中年以后发生,文章提到的瑞士等国家人民更加长寿,患癌概率增加很正常。因此,牛奶导致癌症的因果关系根本不成立,你会放心地继续喝牛奶。

从上述事例就可以看出,拥有基本的统计思维,可以帮助我们了解真实世界,从而做出科学的决策和行为。反之,没有这种思维,我们很容易相信日常生活中的各种数据谎言——统计数据经常被夸大或隐藏,从而形成错误认知,对我们的生活造成不良影响。

《统计数据会说谎》就向我们传授了基本的统计思维方式。这本书通过许多幽默的案例,深入浅出地介绍了统计学基本原理,教我们轻松识别数据谎言。自50年代首次出版以来,这本书不断再版,并被译成多国语言,在世界的影响力经久不衰,被誉为美国商业人士、研修人员的重要入门必修书之一。

作者达莱尔·哈夫,美国统计专家。毕业于爱荷华州立大学,获得学士学位和硕士学位,在此期间他加入了美国大学优等生的荣誉学会,同时还参加了社会心理学、统计学以及智力测验等研究项目。他的文章发表于《哈泼斯》、《星期六邮报》、《时尚先生》等多个知名媒体。1963年,他由于贡献突出被授予国家学院钟奖。

拥有基本的统计思维,就是要通过找到以下5个问题的答案,来反驳统计数据:

●是谁这么说?

●他怎么知道?

●漏掉了什么?

●有人偷换了概念吗?

●这合乎情理吗?

让我们详细看看吧!

是谁这么说,是指要避免模糊、错误描述的干扰,明确提出统计的人是谁。

比如,有篇文章声称上大学会导致女性结婚概率降低,作者是康奈尔大学的“专家”。乍一看,你可能会认为提出统计的人是康奈尔大学——是权威机构,因此对这个统计产生错误的信任。事实上,只有数据是康奈尔大学提供的,结论完全由作者提出,和康奈尔大学毫无关系。

他怎么知道,是指要发现统计样本中的偏差。一般来说,要特别留意样本的规模是否足够庞大到说明问题。

比如,芝加哥《商业日报》做了一个关于囤积物品、哄抬物价的调查,在169家公司中,有67%的公司认为自己是物价上涨的受害者。事实上,该报社共向1200家大型公司发去了调查问卷,但只有14%的公司回复了,86%的公司压根儿没表明看法。因此,这些回复了问卷的公司就组成了一个带有偏差的样本,结论根本不可信。

漏掉了什么,是指要留意统计结果中是否漏掉了什么重要信息。

首先,该统计的平均数、指数、测算方式是否可信。

平均数指代的是算术平均数、中位数,还是众数?简单来说,平均数是所有数据的平均值;中位数是居于中间的数据,有一半数据会比它高,另一半则比它低;众数是出现次数最多的数值。不同定义的平均数,有时区别很大,未加说明的平均数根本不可信。

比如,某人要买房子时,中介告诉他,这片街区用户的年平均收入是15万元,让他下决心付钱,而当他住进去后,某人却向政府请求降低税率,理由是这带用户年平均收入仅为3.5万元。实际上,第一个数据使用了较大的算术平均数,第二个则是较小的中位数。

指数是不是刻意选择的?比如,经济萧条过后,利润和生产指数的增长要比工资指数的增长快得多。实际上,这是因为当时利润已经降至较低水平,基数较小,所以利润在此基数上增长的百分比一定会比工资的大。

数据是否经过可信的测算方式(概率误差、标准误差)的检验?比如,杂志编辑调研发现,35%用户喜欢A文章,40%用户喜欢B文章,因此更多采用B文章类型。实际上测算发现,数据差异只是统计误差,并不能反映B文章更受欢迎。

*概率误差、标准误差:计算数值,通常用于表示样本代表整体数据的精确度。

其次,该统计是否提供了原始数据及必要对比。

统计是否提供了原始数据?只提供百分比的数据通常具有欺骗性。比如,美国某大学开始招收女性学生时,反对者声称:该大学33%的女生嫁给了该校的男老师!查看原始数据才发现——其实当年只有3名女生入学,有1个嫁给了老师。

统计是否提供了必要的数据对比?很多时候没有对比,统计失去意义。比如,卫生部数据表明,在大雾天气的一周内,大伦敦地区的死亡人数猛增至2800人。然而,缺乏与随后几周死亡率数据的对比,此统计不能表明大雾是夺命杀手。

最后,该统计是否漏掉了其他导致变化发生的因素。

比如,有人发布了一份数据,对比了美国17年4月和16年4月的零售销售额,目的是要证明17年经济好转了。但遗漏了:16年的复活节假期在3月,而17年的则是在4月。所以,17年销售额提升,和节假日有关,不能说明经济复苏.

有人偷换了概念吗,是指原始数据和最终结论有没有什么地方被偷换概念。

调查方式有问题吗?比如,报纸调查表明:英国的男性比女性更爱洗澡。可是,实际上这些调查数据是来自用户口述。涉及隐私时,人们说的和做的往往不是一回事。因此,这个调查结论是不可信的。

定义发生变化了吗?比如,某次普查发现,1935年的农村数量与1930年相比大幅增加,人们认为这是一场“回归农场”运动。实际上会出现这个结论,是由于人口普查局定义的农场概念变化了,两次统计农场数量的口径不同导致的。

因果关系有依据吗?比如,某杂志文章图表显示:工厂里的电动马力在不断攀升,每小时的平均工资也跟着上涨。但是观察发现,每周的平均工资却在下跌。所以,没有证据表明电力和工资之间有什么因果关系。

是否说明了“第一”涉及的领域?不说明这点,人人都可以说自己是业界第一。比如,百度公司和谷歌公司都可以说自己是搜索引擎市场的领头羊。实际上,百度指的是在中国的搜索引擎市场,而谷歌指的是全球市场。

是否在拿词义做文章?比如,某杂志报导,会计们希望将“剩余”这个词从公司的资产负债表中删除,使用类似“留存收益”或“固定资产增值”等词语替代。实际上,这就是文字游戏,指代的内容没变化,是偷换概念的做法。

是否合乎情理,是指统计是否以未经证实的假设为基础。未经证实的假设包含很多:公式、事实、看似精确的数据等。

比如,悉鲁道夫·弗莱施提出了一个可读性公式,通过一些简单项目来检测一篇文章的难易程度,类似词语和句子长度等。它吸引了一些报纸出版商。事实上,这个公式假设了词语和句子的长度决定了文章阅读的难易程度,这个假设未经证实。

说了这么多,你是否已经学会了如何反驳统计数据呢?下面是这篇书评的思维导图,你不妨把它保存下来,下次自己再看到电视上的某个统计报告,或者好友转发你一个科普文章时,不要轻易相信里面的数据,而是通过问问题的方式找到这些统计数据的漏洞,这样一来,你才算是真正拥有了统计思维,不会再上当受骗了。

还剩页未读,是否继续阅读? 继续免费阅读

下载此文档

范文

Powered 2024 版权所有 ICP备666666号

付费下载
付费获得该文章下载权限
限时特价 2.00
原价:¥10.00
在线支付
付费复制
付费后即可复制文档
特价:2.00元 原价:10.00元
微信支付
x
提示:如无需复制,请不要长按屏幕影响阅读体验
付费下载
付费后即可下载文档
特价:2.00元 原价:10.00元
微信支付
x
付费下载
扫一扫微信支付
支付金额:2.00