如何科学看待相关性和因果性

在最近引起广泛关注的HPV疫苗与低怀孕率的问题(研究称美国接受 HPV 疫苗注射女性「怀孕概率降低 25% 」,是真的吗?)里,看到了很多“相关性不等于因果性”。诚然,那篇研究问题很大,一方面大家认识到这二者不相同是好事,另一方面感觉这句话成了一句口号,有点矫枉过正了,很多人可能并不理解这背后的意思。不等于因果性,那么相关性的研究是不是没有意义?

事实上,很多很多的研究都仅仅是相关性(association)层面的研究。为什么不做因果性(causation)的研究呢?因为难啊。Causal inference(因果推断)条件非常苛刻,学术界对于因果性的结论非常谨慎。大杂志上发表论文,编辑对语句的审核很严,相关性研究就是相关性研究,不能有半点“我们的研究得出了XX因果关系”,“XX可能导致XX”的意思,只能说“XX可能与XX有关”。我看到这种文献时,比如饮食、疫苗和某个健康指标,教育和收入,默认都是相关性研究。能做出因果关系?太罕见了。

Causal inference(因果推断)

说到causal inference离不开一个词:counterfactual。这个词很好理解,factual是fact的形容词,“事实的”,counter的意思是“反”,所以counterfactual就是“反事实”,“和事实相反”的意思。

对于i这个人,在某条件存在时(定义为1)发生的结果为Yi(1),在该条件不存在时(定义为0)发生的结果则为Yi(0),该条件的causal effect(因果效应)就是:

Y_{i}(1)-Y_{i}(0)

用HPV疫苗的例子来说,同一个人没有打疫苗的怀孕概率是Yi(0),她打了疫苗的怀孕概率是Yi(1),这两个之差就能得出打疫苗对她怀孕概率的因果效应。如果打疫苗是事实,没打疫苗就是反事实,或者没打疫苗是事实,打了疫苗就是反事实。现实中根本不可能同时观测到一个人打了疫苗和不打疫苗两种状态下的怀孕率——这是causal inference根本性问题。

看到这是不是觉得没戏了,除非有平行宇宙:p

Average causal effects(平均因果效应)

没有平行宇宙(也许有?)让研究者可以观测到同一个人在某条件存在和不存在时的两种结果,但是估算出一个人群的平均因果效应是有可能的,只要这个人群里既有打过疫苗的,也有没打过疫苗的。

为什么人群的平均因果效应可以估计呢?根据期望线性运算:

E(Y_{i}(1)-Y_{i}(0))=E(Y_{i}(1))-E(Y_{i}(0))

等式左边个人的Yi(1)-Yi(0)无从得知,但等式右边一群人的E(Yi(1))和E(Yi(0))是可以计算出的。借用一张图说明:

Source: Macartan Humphreys

假设一个包括六个人的人群,每张图横轴上的1到6表示一个人。最左边的图是平行宇宙,每个人打疫苗的怀孕率Y(1)和不打疫苗的怀孕率Y(0)都已知,相减得到中间的图,每一条竖线就是每个人的因果效应Y(1)-Y(0),平均一下得到的红线,就是这个六人人群的真实的平均因果效应(即上面那个等式的左边)。最右边的图是现实的情况,六人中随机的有一部分人打疫苗(图中的1,2,4三人),他们有相应的Y(1),红线是平均值E(Y(1)),剩下的不打疫苗(图中的3,5,6三人),他们有相应的Y(0),黑线是平均值E(Y(0)),这两个平均值相减得到的是估算的平均因果效应(即等式的右边)。

一边是真实的平均因果效应,另一边是估算的平均因果效应。那么有哪些方法能估算的尽可能准确呢?

  • 随机

随机是最常用的方法。将这六个人随机分配到疫苗组和非疫苗组,最大可能的保证了其他因素,如怀孕意愿,不影响研究结果。

  • 控制

既然没有办法在平行宇宙里观测到同一个人同时打疫苗和不打疫苗的潜在的结果,那就通过控制一系列因素得到她的”复制品“。简单说,研究招募的六个人,有着一样的年龄,一样的种族,一样的教育,一样的性生活频率,一样的避孕方式,等等。她们有些打疫苗,有些不打疫苗,最终比较怀孕率。这个方法的缺点是很难保证将所有可能影响结果的因素都考虑都控制到,也很难招募到条件吻合的人。

  • 前后比较

观测到同一个人同时打疫苗和不打疫苗的结果是不可能的,但是退而求其次,可以观测到同一个人先不打疫苗的情况和后来打了疫苗的情况。这个方法比较的是同一个人之前和之后的结果,可以认为她前后的变化仅仅是打了疫苗,其他方面如怀孕意愿、家庭收入等没有改变,那么前后怀孕概率的差别就可认为来自疫苗的影响。缺点很明显,即便是同一个人,前前后后总会有变化,主观上的(怀孕意愿)和客观上的(身体素质)都可能改变。

除了以上三个方法,还有一些涉及数据和模型的方法,比如instrumental variable(似乎叫工具变量),就不展开写了,比(主)较(要)复(是)杂(懒)。双盲随机对照研究一向被认为是金标准,同时也很烧钱。

总的来说,由于因果推断本身的根本性问题,几乎不可能得到真实的因果性,通过各种方法只能尽可能准确估算因果效应。因果推断的大佬Rubin和Holland的名言no causation without manipulation(人为操控的因果推断),简直不要太直白。进行相关性研究无可厚非,但是必须按照严谨的研究设计来。没有严谨支撑的相关性,免不了沦为笑话。

相关性vs因果性

这两个其实回答的不同的问题,相关性比较的是一群人中打了疫苗的人的怀孕率和没有打疫苗的人的怀孕率,而因果性比较的是这一群人,如果他们都打疫苗的怀孕率和他们都不打疫苗的怀孕率。

没错,相关性确实不等于因果性,但因为这一句话而否认掉相关性研究就是矫枉过正了。严谨的相关性研究,有它的价值。肥胖更可能患糖尿病,穷人更可能幸福感低,这些都是相关性的结论。正因为不是因果,所以有不患糖尿病的胖子,有幸福的穷人。因“相关性不等于因果性”而否认肥胖与糖尿病的关系,贫穷与幸福感的关系,是不妥的。一味的批判相关性不等于因果性,是把许多严谨的相关性研究一起否定掉了。而且,比起研究本身,更应该批判的是利用不严谨研究传播的朋友圈假科普。

来源:知乎 www.zhihu.com

作者:知乎用户(登录查看详情)

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载