美国大选中预测模型几乎“全军覆没”,究竟哪里出了问题?

日期:2016-11-23作者:Ed Burns翻译:杨宏玉来源:TechTarget中国 英文

【TechTarget中国原创】

几乎所有的预测建模算法都在预测总统选举获胜者上“马失前蹄”。到底出现了什么问题,是数据科学家和其他分析师忽略了什么关键因素么?

对于2016年的美国总统大选,从美国专业数据分析人士Nate Silver到《纽约时报》,都预测希拉里将以大概率赢得大选,但最后他们却预测错了。

预测失败的原因是多方面的,如果分析团队选择了错误的路线,那这些原因就可以影响到任何预测建模和预测项目。这些原因包括:过度自信,数据质量不佳,将可能性误解为确定性等。

“令人遗憾的是,预测者们把预测结果精确到了小数点后一位,看似是来自于公式的精确输出,但事实并不是这样,”耶鲁大学医学信息中心的助理研究员Pradeep Mutalik在Quanta杂志上刊文表示,这是对确定性的过份吹嘘,大选结束了,他们都被打脸了。

预测不可预测的事

选举前一天,《纽约时报》预测,希拉里的获胜几率是85%。美国新闻网站《赫芬顿邮报》的预测模型则预测希拉里的获胜可能性为98%。Nate Silver的预测相对来说比较“温和”,认为希拉里的获胜概率是71.4%。

这些预测本身并没有错。Nate Silver的模型预测显示,川普在模拟选举中,每十次中有三次获胜。即使是赫芬顿邮报的预测模型对希拉里的胜选保持非常乐观的态度,也没有完全否定川普获胜的可能性。

Nate Silver在美国东部时间11月8日下午6点发推文说道,“这似乎不是一个候选人有99%的机会获胜的选举”,它还讨论了民意调查以及选举前几周预测的不确定性。

但是预测者流露的意思以及民众自己的解读中,都忽略了这一部分,让公众误解为预测模型的结果是确定的。

人们并不完全理解“可能性”的意思

“问题在于,预测模型给出的是‘可能性’,而民众却并不完全理解‘可能性’的含义,”Mutalik说道,“我认为这是数据展示的问题,向公众如此展示数据是十分不负责任的。我认为可能性的展示不能用数字来衡量。”

Mutalik 举了美国《库克政治报告》预测的例子,它对每个州的倾向性给出规模预测,而不是直接去预测投票结果,这是对于不确定性展示的一个很好的例子。

预测失败的原因之一是过份依赖调查数据。预测分析师在预测模型中输入了尽可能多的民意调查数据,每一个调查数据都会有误差,但预测分析师则假设,汇集来自不同来源的调查数据能够抵消这些误差。他们认为,每个民意调查的误差会由不同的原因导致,只要每个调查误差的原因各不相同,将这些调查数据聚合起来,就可以弥补单独调查的误差。

但是在选举中,民意调查的误差原因并不会像人们想的那么简单,很多民意调查中都有共有的造成误差的原因,而当将这些结果聚合在一起时,误差变得更为显著。

预测分析师忽略了一些重要的因素

还有就是热情的问题。乔治华盛顿大学的副教授Michael Cohen曾表示,预测人员忽视了川普演讲集会上狂热的支持者以及川普在推特上的支持者。

相对于民意测试来说,这些因素更难被预测建模和分析,但最终这些人在选举中都支持了川普。

“当你试图了解这个国家亦或是你的公司内部发生了什么事情时,你不会只看数据的一部分,”Cohen说道,“我坚持认为,民调不能是你所关注的唯一数据。”

最终,为选举构建的预测建模和分析将失去作用。James Taylor咨询公司决策管理解决方案首席执行官认为,只有两个特定候选人的选举,是一个一次性事件,它有着自己独特的环境因素,通常一次性事件不能使用历史数据来预测。“只使用基本统计信息是不能准确分析一次性事件的,”他说。

用一个数字概率来代表一个特定结果的可能性,这非常具有挑战性。Mutalik说道,“即使民调显示有误差,但人们依然会倾向于大多数人所期望的结果。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Ed Burns
Ed Burns

TechTarget网站编辑,重点关注商务智能、数据分析和数据可视化技术。

BI分析>更多

技术手册>更多

  • 预测分析与数据挖掘集锦

    数据挖掘、预测分析以及相关业务建模技术几乎完全是由高技能高工资的统计学家、数学家和定量分析师所使用。但随着商务智能和分析厂商提供更方便用户使用的预测分析工具,这一情况正在发生变化。

  • SQL Server 2005/2008数据建模开发者指南

    本篇文章主要介绍SQL Server数据存储的物理对象和原理,包括SQL Server 2005和2008里的物理数据存储、SQL Server 2008数据类型(即Datetime、字符串、自定义及等)、在SQL Server数据库中加强数据的完整性……

  • NoSQL数据库选型指南

    随着大数据时代的到来,越来越多的组织需要处理大量的网站流量、大数据和社交媒体数据等,人们对NoSQL的需求越来越旺盛,NoSQL数据库产品也越来越多。

  • Oracle商务智能手册

    Oracle BI部署、Oracle OBIEE仪表盘技术、Oracle BI项目实施案例、Oracle Hyperion、Oracle Exalytics。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 数据库
  • 网络
  • 云计算