最近通过博客围观了一场关于相关性和因果性的争论。严格说也不能叫围观,最多叫看了眼战报——毕竟虽然没有争出一个结果,但实际上,关于这一问题已经无人继续发言了。

丹尼尔·卡尼曼是2002年诺贝尔经济学奖得主,或许大家看过或听说过他那本畅销书《思考,快与慢》。

卡斯·桑斯坦是著名法学家,在奥巴马时期曾担任白宫信息与监管事务办公室主任。

前几个月,卡尼曼和桑斯坦等人合著的新书出版。其中在介绍相关性和因果性的时候,提及虽然相关性并不意味着因果关系,但 "只要有因果关系,就有相关性"。换句话说,如果X导致Y,那么X和Y一定是相关的。

结果有位统计学学家撰文指出,这是一个错误。

虽然,统计学是常识的系统化,但这个例子表明,统计分析需要我们深入思考,才能理解其内涵。

如果系统中除了X和Y之外没有其他因素,那么这句话就是真的。但在任何现实世界的系统中,都有两个以上的相关因子。

比如说刚刚过去的夏天,人们应该期望室温(Y)与外界环境温度(X)呈正相关:当外界升温时,室内温度上升。

但,当我们为系统中引入空调(C)的时候,情况就不一样了。空调将室温(Y)固定。换句话说,C的作用是使Y保持在23-26℃之间,不管外面的温度(X)如何。

空调破坏了X和Y之间的相关性。如果我们只收集外部和内部温度的数据,我们不会看到相关性! 尽管外部温度明显以线性方式影响室温,但数据呈现的是不相关的。

上面大致就是统计学家从统计学定义出发,提出的反对意见。大家觉得有道理吗?

由相关性得不到因果性,但因果性一定蕴含相关性吗?

更多内容可以参考

https://junkcharts.typepad.com/numbersruleyourworld/2021/05/if-x-causes-y-does-it-follow-that-x-and-y-are-correlated.html

[ 广告 ]
赞一个 (9)

PREV :
NEXT :