概率论与数理统计 辛普森悖论(辛普森悖论的严格统计定义),本文通过数据整理汇集了概率论与数理统计 辛普森悖论(辛普森悖论的严格统计定义)相关信息,下面一起看看。

如果你只是数据科学领域的新手,那么我建议你先看《五本书带你入门数据科学》,入门后再看《R语言案例实战》系列。

辛普森悖论

当人们试图探究两个变量(如新生录取率、性别)是否相关时,会分组研究。但是,在群体比较中占优的一方,有时也是在整体评价中失势的一方。

这种现象在20世纪初就有人讨论过,但直到1951年E.H .辛普森在他发表的论文中解释了这种现象,才被正式描述和解释。后来这个悖论以他的名字命名,就是辛普森悖论。

辛普森悖论案例

美国大学的两个学院是法学院和商学院。新学期招生,人们怀疑两个学院之间存在性别歧视。统计数据如下:

法学院:

商学院:

从上面两个表来看,两个学院都是女生优先录取,也就是女生的录取率更高。现在总结一下两个学院的数据:

总体评价中,女生录取率低于男生。

辛普森悖论解析

辛普森悖论的原因可以用下图来解答。

上图中,x轴代表总报考人数,y轴代表录取人数。那么Y/X,也就是直线的斜率,和录取率是正相关的。

法学院男生为(a1,a2),法学院女生为(A1,A2)。可以看出,法学院女生的斜率高于法学院男生,法学院女生的录取率高于法学院男生。

同样,(b1,b2)代表商学院的男学生,(B1,B2)代表商学院的女学生。可以看出,商学院女生的斜率高于商学院男生,商学院女生的录取率高于商学院男生。

尽管如此,从整体直线的斜率来看,男生整体(a1 b1,a2 b2)的斜率大于女生整体(A1 B1,A2 B2)。

这是辛普森悖论的图形解释,非常直观明了。

如何避免辛普森悖论

为了避免辛普森悖论,需要考虑每个分组的权重,并乘以一定的系数,以消除分组数据基础差异带来的影响。同时,我们必须对形势有清醒的认识,以综合考虑是否存在造成这种悖论的潜在因素。

这个网站是个人知识管理的网络存储空间。所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请一键举报。

更多概率论与数理统计 辛普森悖论(辛普森悖论的严格统计定义)相关信息请关注本站,本文仅仅做为展示!