如果你体育课投球10个,进了6个,然后高兴地说,我的命中率比大多数NBA球星要高。那么,恭喜你,你落入了统计学陷阱。
先从国外的一所大学入手。假设存在两个学院,一个数理学院一个人文社科学院。
数理学院每年 500 个申请者,100 个女生,400 个男生,女申请者有 80% 的可能被录取,男申请者有 75% 的可能被录取;人文学院每年 200 个申请者,160 个女生,40 个男生,女生有 20% 的可能被录取,男申请者有 15% 的可能被录取。
在两个院女申请者被录取率都比男申请者高的情况下,全校录取率男生更高。通过计算我们不难求出来,这是个事实。
道理很简单,像下面图片一样,全校的男生录取率和女生录取率相当于一个加权平均,但是男生和女生分别由两个录取率非常不同的群体组成(文科生和理科生),并且这两个群体的比例在男生和女生中非常不同(男生理科生多,女生文科生多),加权平均的结果会一个更接近文科录取率、一个更接近理科录取率。
,细看黑人和白人的人口结构,其实只是黑人里面十五到三十岁这个范围内的人比例更高,而无论人种,都是年纪轻轻还教育不足、游手好闲的人犯罪比较多嘛。黑人最近三五十年一直生育率较白人为高,年轻人所占比例更高,所以整体犯罪率也会更高。

Stein's paradox:这个好像不够“基础”。
假设我们有 n 个独立的正态分布样本(每个 X 都是含有许多样本点的 sample)
,而
,它的计算方法如下
的估计作例子,用下图表示直觉的均值估计量和 Stein's estimator 的对比

这里就可以直观地看出 shrinkage 的含义:每一维度上的估计都向 grand mean 方向收缩了。在这张图中,虽然大家的打击率估计都被改变了,但相对位置没有变化,排名维持不变。
在每一组数据方差相互不同的情况下,shrinkage 实际上可能会导致不同球员之间的顺序发生变化。

直觉上其实也很好理解,如果我刚巧被某个不懂统计学的教练选中,在无关紧要的比赛里打了打酱油,5 投 4 中,然后就被裁掉了,我能之后在简历上写上“比杜兰特高 29%的命中率”去跟各队要求顶薪吗?由于数据量太少,我的投篮命中率并不是一个对于我的真实篮球水平的好的衡量,所以需要加入其他运动员的平均数据来加以修正。杜兰特 467 投 238 中命中率高于全NBA均值 6.2 个百分点,比我 5 投 4 中命中率高于全NBA均值 35.2 个百分点,在 Stein's estimator 和教练眼里一样,都要值钱得多。
简而言之,取样要足够多而且足够代表性。好歹别一节课手气不错就产生“命中率高于某个球星“的结论,坚持一个学期才是真理。
Via:中财千帆数学社
数模场景征集开始啦,详情请点击右下角主菜单【∞】选择 场景征集 了解详情,一起聊聊你印象中的数学建模
金融工程, 数学算法, 命中率, 均值