可惜没如果——因果关系的三个层级

因果推断的基本知识
biostatistics
causal inference
Author
Published

Sunday, January 5, 2020

前言

我们平时在统计中最常接触到的就是相关关系,而在因果推断中,实际上相关关系是处在因果关系三个层级的最低层级。正如我们所熟知的,相关不能说明因果,我们从观察到的数据中得到的相关对于因果的解释并不能起到直接的作用。

因果关系的三个层级

第一层级:关联

我们一般通过观察寻找规律。如果观察到某一事件改变了观察到另一事件的可能性,我们便说这一事件与另一事件相关联。更进一步地,我们基于被动观察做出预测。

典型的数据预测问题就是:如果我观察到···会怎样?例如,一家商店可能会问你:购买牙膏的顾客同时购买牙线的可能性有多大?这类问题是统计学的安身立命之本,统计学家主要通过收集和分析数据给出答案。

我们可以这样解答:首先采集所有顾客购物行为的数据,筛选出购买牙膏的顾客,计算出当中购买牙线的人数比例。这个比例也就是我们所说的条件概率,用来反映(针对大数据)买牙膏和买牙线两种行为之间的关联程度,即 P(牙线|牙膏)。典型常用的关联度量方法即相关分析或回归分析,具体操作就是将一条直线拟合到数据点集中,再去确定这条直线的斜率。

我们在学习统计的时候,几乎所有老师都会和你说:相关不代表因果。统计学本身不能告诉我们,牙膏或牙线哪个是因,哪个是果。但是从商店的角度看,因果这件事并不重要——好的预测无需好的解释。

当前的机器学习程序(包括应用深度神经网络的程序)几乎仍然完全是在关联模式下运行的。它们由一系列观察结果驱动,致力于拟合出一个函数,就像我们试图用点集拟合出一条直线一样。深度神经网络为拟合函数的复杂性增加了更多的层次,但其拟合过程仍然由原始数据驱动。如果无人驾驶汽车的程序设计者想让汽车在新情况下做出不同的反应,他就必须明确地在程序中添加这些新反应的描述代码,否则机器没有应对新情况的灵活性和适应性。

第二层级:干预

在第一层级中,我们基于被动观察发现规律,做出预测。而当我们开始寻求主动对环境做出改变时,我们就迈上了因果关系的第二层级。这一层级的一个典型问题是:如果我们把牙膏的价格翻倍,牙线的销售额将会怎样?问出这个问题的时候,我们实际上已经脱离了收集到的数据本身,而要对数据的环境做出干预。我们把这样的问题记作 P(牙线|do(牙膏)),即如果我们实施...行动,将会怎样

毫无疑问,干预比关联更高级,因为其不仅涉及被动观察,还涉及主动改变现状。无论你的数据集有多大、神经网络有多深,只要你使用的是被动收集的数据,就无法回答有关干预的问题。从统计学中学到的任何方法都不足以让我们明确表述类似如果价格翻倍将会发生什么这样的问题,更谈不上回答了。

为什么我们无法仅仅通过观察来回答牙线的问题呢?为什么不直接进入存有历史购买信息的数据库中,看看在牙膏价格翻倍的情况下对应的牙线的销售情况呢?原因在于,在历史销售信息中,牙膏涨价可能是出于完全不同的原因,如产品供不应求,其他商店也不得不涨价等。而我们只想刻意干预牙膏价格,这一结果就可能与历史上顾客在别处买不到便宜牙膏时的购买行为大相径庭。简单地说,我们只想知道单纯的牙膏涨价这个因所对应的牙线的果,而历史数据中各种影响因素完全超出了我们所提出问题的范畴,因而无法仅仅利用观察历史数据来回答干预的问题。

因果推断则可以帮助我们解决这一问题。

我们知道预测干预结果的一种非常直接的方法是:在严格控制的条件下进行实验。更加有趣的是,一个足够强大准确的因果模型可以在不进行实验的前提下,利用第一层级(关联)的数据来回答第二层级(干预)的问题。

日常生活中,我们一直都在实施干预,尽管我们不会这么一本正经地称呼它。当我们服用阿司匹林试图治疗头痛时,就是在干预一个变量(人体内阿司匹林的量),以影响另一个变量(头痛的状态)。如果我们关于阿司匹林治愈头痛的因果知识是正确的,那么我们的结果变量的值将会从头痛变为不头痛。

第三层级:反事实

但是到此仍然不能回答所有我们感兴趣的因果问题:现在已经不头痛了,是因为我吃的阿司匹林么?是因为我吃的食物么?是因为我心情变好了么?

正是这些问题将我们带入到因果关系的第三层级:反事实。要回答以上问题,我们就必须回到过去改变历史,假如我们没有服用过阿司匹林,会怎样?世界上没有哪个实验可以撤销对一个已接受过治疗的人所进行的治疗,进而比较治疗与未治疗两种条件下的结果。

数据就是事实,而在反事实世界里,观察到的事实被完全否定。回到牙膏的例子,第三层级的问题是:假如我们把牙膏价格翻倍,之前买了牙膏的顾客仍然选择购买的概率是多少?在这个问题中,我们所做的就是将真实的世界(我们知道顾客以当前的价格购买了牙膏)和虚构的世界(牙膏价格翻倍)进行对比。

倘若那天,把该说的话好好说,该体谅的不执着,你会怎么做?对这类问题的回答让我们得以从历史和他人的经验中获取经验教训。从想象的反事实中,我们获得了灵活性、反省能力以及改善行为的能力。

因果关系第三层级的典型问题就是:假如我当时做了…会怎样?为什么?两者都涉及观察到的世界与反事实世界的比较,仅靠干预实验无法回答这样的问题。