民调没错,是大家的数学错了
许叔 @ 2016.11.14 , 06:00 下午[-]
大家都在讨论民调的失败。但是川普获胜远非一场无法预料的“黑天鹅”事件。证据都在这里,就看你如何解读了。
实际上,民调还是靠谱的。从历史标准来看,2016年大选的结果并非谬之千里。大部分州的结果都在民调误差范围内,最谨慎的预测给了希拉里66%的获胜可能。在选举两周前,川普获胜的概率是输掉俄罗斯轮盘赌的概率的两倍。但是最乐观的预测给了希拉里90%的获胜可能,因为他们错过了一个基本的事实:民调误差往往或同时影响很多州,而且方向一致。
为了理解66%可能和90%可能之间的巨大差异,我们要先把可能性转换成赔率,即胜算对败算的比率。50% 可能性就是抛硬币,赔率是1:1。
[-]
66%可能就是2:1的赔率,这也是著名民调机构FiveThirtyEight公布了希拉里获胜几率。
[-]
相比之下,用6发左轮手枪玩俄罗斯轮盘赌,你的赢面是83%,即5:1的赔率,获胜可能性是2:1赔率的两倍还多。
[-]
我们接着往上加。从83%加到90%,这不代表获胜可能性增加了7%,而是又增加了接近一倍,因为现在赔率是9:1。
[-]
90%的可能性比66%的可能性赢面多了超过4倍。
那么为什么最乐观和最保守的预测之间差了这么多呢?一些模型并没有考虑到这一点,即独立的民调可能是准确的,但是综合起来的结果往往不对。
我们下面看一组预测希拉里获胜的摇摆州数据。一下都是过去两周内的民调,而且加入了误差范围(灰色区域,红点表示民调中领先位置)。
首先是希拉里领先的宾夕法尼亚州:
[-]
最终结果是川普以领先1个百分点获胜,这比民调平均结果差了几个点,但是这仍然在最后几次民调的误差范围内。
佛罗里达州的结果更不令人惊讶:
[-]
最终结果完全在误差带内,但是预测方向还是错了:对希拉里过于乐观了。
威斯康辛州则完全是个意外:
[-]
很难说哪里出错了;民调误差来自于多种因素,包括投票率、民众在调查时撒谎或者不断变化的人口统计。但是一旦出现问题,它往往在很多地方都会体现出来:民调方法的偏差会影响多个州,民调机构又往往弄不清其中的问题。
路透社就没有考虑其中的变数,给了希拉里90%的获胜可能,而FiveThirtyEight考虑到了,甚至还事先警告大家民调误差的可能性。它们只给了希拉里66%的获胜可能,也就是2:1的赔率。
你们应该相信哪一种模型呢?
预测既是一门科学也是一门艺术,而且不仅限于选举中,因为历史的每个瞬间都是独一无二的。我们容易在这种变幻莫测中感到迷失,我们只愿意看到自己想看到的。误差范围是民调与生俱来的,因为无论分析有多全面,那些看不见的因素都可能造成错误。下一次当你看到两个相差巨大的预测时,要问自己,差距到底有多大?为什么这么大?
PREV : 这可能是最残忍的科学实验
NEXT : 你们这帮科学家,取名字一个比一个浮夸