《别拿相关当因果!因果关系简易入门》是一篇引人思考的文章。文章通过举例解释了相关和因果之间的区别和联系,提醒读者不要简单地将相关性误解为因果关系。作者强调了正确理解因果关系的重要性,并给出了一些实用的方法来判断因果关系。这篇文章不仅扩展了读者的知识,还帮助读者更好地分析和理解事件之间的关系。
《别拿相关当因果!因果关系简易入门》读后感(一)
注水严重,
干货不多……甚至没有,都是概率和统计里面的内容;
现在大部分流行书作者都这套路,弄好一个框架,拼命注水成一本书;后面重要的是出版渠道和运营,简而言之就是卖出去、卖得好……
而书本是要传递知识、理念、文明、逻辑……等一切人类的文化,在注水严重&书籍数量超发的情况下,略读成为一个必不可少的策略。因为你的时间够本不够这类注水书消耗,根本不成比例……
庄子早就说了这个道理:知有涯而生无涯,以有涯随无涯,殆已!已而为知者,殆而已矣!为善无近名,为恶无近刑。缘督以为经,可以保身,可以全生,可以养亲(づ ̄³ ̄)づ它NND全是自动化……在两千多年前以人类有限生命就无法匹配那时候的无限知识了,那么在知识爆炸并且注水书横纵的今天,更加是匹配不上的……
《别拿相关当因果!因果关系简易入门》读后感(二)
1)无论一件事情发生的概率有多低,只要尝试的次数足够多,最后一定会发生。
2)“原因”一词一般是指:它使某种结果更有可能出现,并且没有它某种结果就不会出现或者无法出现,或者说它能够在适当的环境下产生某种结果。
3)有三件很重要的事只有在清楚原因的情况下才能做到,或者做到最好,这三件事是:预测、解释和干预。
4)一般来说,与相关性相比,原因能够为我们提供更为可靠的方法来预测事件的结果。
5)因果关系最重要的用途是可以用来干预某些事情的发生。我们不仅想知道某些事件为什么会发生,更想利用这些信息来预防或促成某些结果的产生。
6)我们必须保证我们的干预措施针对的是真正影响结果的原因。如果我们只干预了一些与结果相关的因素(比如通过禁止使用火柴来减少死于因吸烟导致的肺癌的人数),那这样的干预措施是不会有效果的。
7)比如,增加运动量会导致体重下降,但是“补偿效应”又会导致人们去摄入更多的热量,甚至比他们消耗掉的热量还要多(于是他们的体重不降反升)。所以我们要做的不是去寻找个体变量之间的单一联系,而是要对事物间各种相互关联的关系有一个更为宏观的认识。
8)两个变量相关的基本意思是,一个变量发生的变化与另一个变量发生的变化是有关联的。比如说,孩子们的身高和年龄相关,因为随着年龄的增长,孩子们的身高也会增长,这样他们才能慢慢长大。这些相关性可能存在于不同的样本之间(一次测量多个不同年龄的孩子),也可能存在于同一样本的不同时间段之间(在同一个孩子的不同年龄段多次测量他的身高),还可能存在于不同样本的不同时间段之间(在多个孩子的不同年龄段多次测量他们的身高)。然而,身高和出生月份之间却没有长期的相关性。也就是说,即使我们改变了出生月份,我们的身高也并不会发生有规律的变化。
9)证实性偏差会使人们去寻找证据来证实他们的观点。如果你认为一种药物会引起某种副作用,那你有可能会去网上搜索其他吃了这个药并且出现了这种副作用的病人。但是,这种做法意味着你是在忽略所有不能证实你的假设的数据,而不是寻找那些有可能让你重新评估你的观点的证据。证实性偏差可能还会导致你对那些与你的假设相矛盾的证据产生怀疑——你可能会认为这些证据的来源不可靠,或者获取这些证据的实验方法有问题。
10)我们之所以会错误地认定某种相关性,是因为我们只关注了一部分数据。如果你期望变量之间存在负相关性,那么你就有可能只关注整个数据集中那些能够证实这一观点的一小部分数据。这就是它是一种证实性偏差的原因:人们有可能因为先验的信念而自动将目光投向某些数据。
11)相关性系数是对称的。身高和年龄之间的相关性与年龄和身高之间的相关性完全一样。但是,因果关系可能是不对称的。咖啡让人失眠并不意味着失眠一定会让人喝咖啡(不过这种情况也有可能发生:当人们睡眠不足时,可能会在早上喝很多咖啡)。
12)举一个没有相关性的因果关系:长跑对体重的影响。虽然长跑能够消耗热量从而减轻体重,但是长跑也能导致食欲大增从而增加体重(而这又会对减肥造成负面影响)。根据每种影响的强度不同,或者根据调查的数据不同,跑步的积极作用可能恰好会被它的消极作用抵消,结果人们就会发现在跑步和减肥之间不存在任何相关性。
13)如果没有某个原因,某个结果就不会出现(即每次出现这个结果之前都会出现这个原因),那么这个原因就是这个结果的必要条件;如果每次只要出现某个原因,就一定会出现某个结果(每次某个原因出现之后必然伴随某个结果),那么这个原因就是这个结果的充分条件。某个原因可能是必要条件但不是充分条件,反之亦然。
14)对一些事件来说,概率增加了一倍可能听起来差别很大,但如果这只是将一件事变成了两件事,那这个概率的说服力就大打折扣了。比如说,中风的风险可能从0.0000001增加到了0.0000002,也可能从0.1增加到了0.2。这两种情况的概率都增加了一倍,但在第一种情况下,增加一倍的是一个很小的数字,而增加后的数值仍然是一个很小的数字。
《别拿相关当因果!因果关系简易入门》读后感(三)
“数据时代,更多的人类活动都将‘为数据所驱动’,要想弄清政策导向、了解自身健康以及认识周围世界,必须掌握因果关系。”——Chris Wiggins
用了两周时间读完了克莱因伯格教授的《别拿相关当因果:因果关系简易入门》,用这篇文章先对因果关系推理过程中会遇到的疑惑进行梳理,尤其是相关关系与因果关系的联系和区别。
我们为什么要寻找原因?
因果关系的重要性毋庸置疑。人们总是认为,一件事情的发生是有原因的,否则它就不会发生。各领域的研究问题很多也都围绕着原因的探究,比如,小班教学能提升学生成绩吗?为什么会得流感?导致交通事故的原因是什么?
寻找原因的目的可以大致概括为三点。首先,我们希望控制原因而改变结果。正如书中所说, “原因之所以如此重要,关键理由之一是我们可以利用它来设计出有效的干预措施,从而控制我们周围的世界” 。比如,我们了解到生育率的降低会使劳动力数量下降,那么我们就可以采取一些人口政策进行干预,改变结果。其次,我们希望预测未来事件。预测是很重要的一个目的,比如,我们希望通过了解引起股票价格变动的原因来预测股票价格的变化。最后,我们有时需要根据引起事件的原因划分法律责任。比如,法庭要根据证据判定事故责任方,追究其法律责任。
我们是如何寻找原因的?
人类寻找原因的活动通过两种方式进行:感知和推理。
感知是通过对因果关系的直接体验,比如我们看到一个球的运动触发了另一个球的运动。研究发现,随年龄的增大,人们的感知能力会增强。另外,感知有时是不准确的。事件发生的时间以及空间上的邻近性等因素会导致人们错误地感知因果关系。
而推理则是从不含因果关系的信息中进行推断。因果推理是使用间接信息来寻找原因的过程。有研究试图破译影响人们推理因果关系的因素。因果推理包括两个部分:寻找结构和寻找影响力。寻找结构会告诉我们什么原因导致了什么结果,寻找影响力会告诉我们这个原因在多大程度上导致了这个结果。
当然,因果推理的结果也不总是准确的。从人的局限性来看,人们在推理过程中可能会出现证实性偏见(先入为主,关注证实自己信念的信息)、安慰剂效应(仅仅“接受治疗”这一行为就可能对病人产生影响)等等。有些因素也让人们很难把握事件发生的原因,比如原因和结果之间存在很长的延迟,或者因果结构很复杂。
相关关系和因果关系
人们总是错误地把相关关系当作因果关系。实际上,相关关系指的是一个变量发生的变化与另一个变量发生的变化是有关联的。相关关系并不等于因果关系,因果关系也并不总意味着相关关系。
很强的相关性并不能告诉我们前因后果。体重下降可能和某种病毒的存在有很强的相关性,但是这个病毒究竟是因还是果(是病毒引起了体重下降,还是体重下降使人感染了病毒),还是说二者是由一个共同的原因引起的,我们无法从相关性中得出判断。
很强的相关性并不能告诉我们事物的工作原理,无法告知我们如何采取干预措施来改变事物的运行机制。虽然很强的相关性很有说服力,而且可能让我们做出一些成功的预测,但是我们无法知道事件发生的机制。 例如,疾病和病毒的表面联系,并不能说明我们能够依靠治疗病毒的方法治好这个疾病。
尽管因果关系能够解释一些相关性问题,但因果关系并不是唯一解释。两个变量间的关系可能是由一个共同原因引起的,或是存在中间变量。大部分情况下我们找到的都是间接原因,但是了解原因具体起作用的机制能够让我们找到更好的干预措施。例如,我们找到的是吸烟引起肺癌这一结果,并不是具体的生物进程。
因果关系并不总意味着相关性。跑步会引起体重减轻,但是跑步同时也会让食欲增加,从而使体重上升,二者相互抵消,跑步与体重减轻的相关性就会消失。