辛普森悖论:诡异的男女比例

大学的男女比例问题一直是广大宅男同胞所关心的重大问题,也是高中同学聚会时必然谈起的话题,对于选择大学来说,这也是一项重要指标。

一天,我拿出两个大学(P 大和 T 大)的统计数据开始研究。“物理学院,P 大男女比例大于 T 大;数学科学学院,P 大男女比例又是大于 T 大??哇,怎么所有专业 P 大的男女比例都高于 T 大啊??那还犹豫什么呢,我肯定报 T 大了!”正当我刚刚心意已定的时候,突然看到了统计数据的最后一行:P 大的总体男女比例低于 T 大!“什么?!有没有搞错?怎么可能 P 大的所有专业男女比例都高于 T 大,但是整体男女比例却低于 T 大了呢?!肯定是哪里算错了吧??”于是我拿出计算器狂敲,却发现没有任何一个计算错了的数据。这种情况真的可能发生吗?

统计数据不说谎多说无益,请看下面编造出来的一份男女比例数据(其中假设两所大学都只有物院和外院两个专业):

物院的数据:

男生人数女生人数男:女P大4585.6:1(大)T大101512.0:1外院的数据:

男生人数女生人数男:女P大502010.25:1(大)T大9920.10:1学校整体数据(即上述两个专业人数之和):

男生人数女生人数男:女P大952090.45:1T大1101430.77:1(大!)数据可不会是骗人的,不信可以自己动手验算一下,真的出现了这种违背常理的情况!这种现象被称为“辛普森悖论”。虽然这么叫,但其实这不是个真正的悖论,它内部没有包含逻辑上的矛盾,只是有些违背人们的常理罢了。

辛普森悖论的直观认识可能有些人还是一头雾水,虽然数据是如此没错,可还是不能理解到底发生了什么使得结论如此古怪。让你构造一个类似的数据,恐怕你也很难直接想得出来吧!人们对几何图形的想象能力总是高于对数字和字母的想象,因此为了更直观地表现出辛普森悖论,我们看下面一幅向量图:

宽客网

图中,黑色的线代表 P 大数据,红色的线代表 T 大的数据。A p 点的横坐标为 P 大外院女生人数,纵坐标为 P 大外院男生人数;B p 点的横纵坐标则分别为 P 大总女生人数和总男生人数。A t 和 B t 点的意义与之相对应。

设坐标原点为 O,则 OA p 的斜率表示的就是 P 大外院的男女比例,A p B p 表示的是 P 大物院的男女比例,OB p 表示的则是 P 大总男女比例;T 大的各线段斜率意义与之对应。

如此一来,一切都变得清晰起来了。辛普森悖论反映在这张图上,就成了一个显然的事实:在 P 大的外院、物院两个向量的斜率分别大于 T 大的两个向量的斜率的条件下,总人数向量的斜率当然不一定哪个大呀!根据这个直观的理解,你也可以随意编造能产生辛普森悖论的数据了吧!

知道了辛普森悖论这一事实之后,我们以后对待统计数据就要更加小心了。在数学中,经常会出现这种出乎人们意料的惊人事实,所以还是一定要学好数学啊!

via:果壳网
金融工程, 数学算法


风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部