当前位置:主页 > 学新知识 > 机器学习中的因果关系: 从常见的统计学谬误 —— 辛普森悖论讲起

机器学习中的因果关系: 从常见的统计学谬误 —— 辛普森悖论讲起

时间:2024-03-29 07:55:10 作者:
摘要:在导师推荐下,最近学了机器学习因果分析相关的知识,简直打开了我新世界的大门啊~关于机器学习中的因果关系

在导师推荐下,最近学了机器学习因果分析相关的知识,简直打开了我新世界的大门啊~

关于机器学习中的因果关系,本系列将分为以下几篇文章(本文是第一篇):

常见的统计学谬误——辛普森悖论何谓因果关系?机器学习中的因果性和相关性如何探究数据之间的因果性?常见的统计学谬误 —— 辛普森悖论 世界上有三种谎言:谎言、可恶的谎言和统计数据。(马克·吐温)

首先,让我们看一个例子。

美国一所大学的两个学院,分别是商学院和法学院。新学期招生,人们怀疑这两个学院有性别歧视。两个学院的招生统计数据汇总如下:

\begin{array}[b] {|c|c|} \hline 性别 & 录取 &拒收&总数&录取率\\ \hline 男生 & 209 &95&304 & \textbf{68.8%} \\ \hline 女生 & 143&110&253&\textbf{56.5%} \\ \hline \end{array}\\

女生录取率是56.5%,男生录取率是68.8%,女生录取率比男生低。哇哦,性别歧视?

然后,我们看一下两个学院分别的数据。

法学院的录取数据:

\begin{array}[b] {|c|c|} \hline 性别 & 录取 &拒收&总数&录取率\\ \hline 男生 & 8 &45&53 & \textbf{15.1%} \\ \hline 女生 & 51&101&152&\textbf{33.6%} \\\hline \end{array}\\

商学院的录取数据:

\begin{array}[b] {|c|c|} \hline 性别 & 录取 &拒收&总数&录取率\\ \hline 男生 & 201 &50&251 & \textbf{80.1%} \\ \hline 女生 & 92&9&101&\textbf{91.1%} \\\hline \end{array}\\

纳尼?明明两个学院女生的录取率都比男生多!是谁在说歧视女生?

因为这是我最近学的新知识_学点新知识_什么新知识

辛普森悖论(Simpson's Paradox)是英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种趋势,可是一旦合并考虑,却可能导致相反的结论。

在上面美国大学录取这个例子里,出现这种情况,主要有两个原因:

这个例子告诉我们,简单的将分组数据加起来汇总,有时候并不能反映真实情况。

听完上述例子,你是否有所感触?

没有感触?

再问一遍,真的没有吗??

没事儿,我再讲个与你相关的例子。

假设你得了肾结石... (别激动,只是假设而已)

王医生推荐你两套治疗方案 ,A是开刀手术(创口比较大),B是微创手术,两种治疗方案实验效果如下图所示:

\begin{array}[b] {|c|c|} \hline 方案&患者人数 & 治愈人数 &成功率\\ \hline 方案A & 350&273 & \textbf{78%} \\ \hline 方案B & 350&289&\textbf{83%} \\ \hline \end{array}\\

从结果看,选方案B妥妥的,成功率更高嘛!

后来想了想,谨慎起见,还是再找李医生问问吧。李医生给了我同一个实验中更详细的数据。

\begin{array}[b] {|c|c|} \hline 方案&小结石 & 大结石\\ \hline 方案A & 93\% (81/87) &73\% (192/263) \\ \hline 方案B & 87\% (234/270) &69\% (55/80) \\ \hline \end{array}\\

李医生说,结石根据大小只分为两种:小结石和大结石。考虑到上图的数据结果,他推荐我们采用方案A,该方案无论对大结石还是小结石,治疗成功率都比方案B高。

这是咋回事?我到底该听谁的?

首先,小结石病情比大结石轻,因此无论选择哪种治疗方案,康复率都比大结石高。然而,当你患了小结石时,考虑到病情比较轻,医生会倾向选择方案B(微创)。而如果患了大结石,医生会倾向选择方案A(创口比较大),疗效也更好。虽然无论病情严重与否,方案A都比方案B治疗效果好。但是,选择方案A的病人通常是大结石,因此整体康复率比方案B差一些。

肾结石的大小 (病情严重程度) 在这里是一个混淆变量 (confounding variable),它同时影响着自变量(治疗方案)和因变量(康复率)。从汇总数据中,我们并不能看到混淆变量的存在,画个因果关系图,我们就可以看清楚啦!

因为这是我最近学的新知识_什么新知识_学点新知识

刚才讲的两个例子都告诉我们,合并数据可能会对真实情况产生干扰。

辛普森悖论揭示了,我们看到的数据并非是事实的全貌。我们不能只满足于数据本身,我们必须关注整个数据的生成过程,考虑因果模型,对数据负责。当我们理解了数据产生的机制,我们就能站在更高的角度,找到其他潜在影响因素。

对数据科学家来说,我们应该学会因果性思考的模式,这有助于避免我们从数据中得出错误的结论。一个好的数据科学家应该不仅仅是数据分析方面的专家,他也能结合专业领域的知识,来做出更好的决策。

记得PhD刚入学时,导师Flora就对我说过,

不要过于依赖数据,通过机器学习,你可以从数据中得出任何你想得到的结论,但这毫无意义。当你想将机器学习应用到某领域 (e.g., 建筑,心理或教育) 时,你必须去了解那个领域的专业知识 (expert knowledge)。

我当时似懂非懂,但是我现在终于明白了,为啥导师让我跨领域读文献。

我们从辛普森悖论中学到什么教训?

数据可以帮我们更好的分析问题,也可以成为愚弄他人的帮凶。

面对数据,我们必须始终保持怀疑和谨慎,理性思考。比如说,在分析数据的时候,不能简单的将分组数据汇总相加。我们需要仔细观察分组数据的特征。在得出基于统计分析的结论之前,仔细想一想,是否被表面的数据掩盖了潜藏的真相?

辛普森悖论就介绍到这里。在后续的文章中,我会进一步和大家聊聊:因果关系的具体定义、机器学习中的因果性和相关性的常见谬误、以及数据间因果发现的常用方法。

我的其他回答

哪些 Python 库让你相见恨晚?

python如何画出漂亮的地图?

时间序列数据如何插补缺失值?

让我们跑一个最简单的GAN网络吧!(附Jupyter Notebook 代码)

参考维基百科:KfrNKlS0GekCMLEuilMSRNsvogb_h1-cB62o_Y6l1vJTuK1_fiv42zGSPUT0KGDy5ui0wW7tad9o4w^辛普森悖论:用同一个数据集能证明相反观点?

相关阅读

发表评论

登录后才能评论

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件举报,一经查实,本站将立刻删除。