大数据科学家运用MySQL解析橄榄球赛数据

日期: 2013-01-21 作者:Mark Fontecchio翻译:茶一峰 来源:TechTarget中国 英文

美国国家橄榄球联盟(NFL)本周举行锦标赛大会,Scott M. Sawyer谈到大量难懂的数据,对获胜球队进行预测。

大数据科学家运用MySQL解析橄榄球赛数据

  Sawyer的计算机分析团队来自麻省理工学院,他的研究领域包括大数据和并行算法。最近,他正在开发一项网络应用,解析自2002年至今的NFL赛况数据。那么,他发现了什么呢?

  • 2002年以来,4号和1号位冲阵的成功几率为71%,如果把传球也算上的话就是66%。也就是说,球队应该让4号和1号冲阵。
  • 2002年以来,新英格兰爱国者队得分率为40%,都在比赛最后5分钟之内攻下了一分。联赛平均得分率为34%。
  • 巴尔的摩乌鸦队在第一次与丹佛野马队的配对防守中,传球成功率大大超过冲阵。这个结论很有意思,因为野马队的四分卫是大名鼎鼎的Peyton Manning。

  Sawyer的研究方法在概念上相当简单。他提取出从2002年到2012年十年间NFL的赛况数据,这些数据已经由高级NFL统计部门的Brian Burke归档为逗号分隔值(CSV)。在海量的Excel表格文档中,每一行代表着NFL在某一季的一次比赛,信息十分详尽,包括攻守组、每一节的时间记录以及场地位置等。另外,还有关于每一次比赛的描述,如“(13:13) (枪响开始),12号T. Brady把球左传给了34号S. Vereen,推进33码线,达阵。”

  接下来,Sawyer会处理这些CSV文档,用数小时来编写Python编码,然后针对每一行进行分析。他会过滤掉那些非进攻型的打法,比如踢球和点球,判断它们是传球还是冲阵,得出攻占与失守的码线,再对每一次打法成功与否进行标注。如果该打法引发了第一档进攻并达阵,或者在第一档或第二档进攻中至少推进4码线,就算成功。

  下一步,Sawyer把所有数据传输到MySQL数据库中。

  他表示:“我不指望能在这个项目上赚到钱,但也不希望赔损太多。我使用的是便宜的共享主机,MySQL在以最低限度的CPU周期将信息传送给访客方面最为合适。”

  Sawyer还提到,MySQL已经安装配置到他的虚拟主机,而且他正在使用广泛索引和查询缓存以降低网络服务器的工作负荷。

  虽然数据都是CSV文档,但由于每一次比赛都存在非结构化文本描述,还是会有人把它们归到大数据的范畴中去。Sawyer却认为这有点言过其实。关于比赛的文本语料库总共有64MB,并不大。他经过解析描述以后,把它们降到了30MB,但在导入MySQL并使用索引之后又上升到了100MB。

  即便如此,Sawyer也不担心。他预测数据还会变得更大,因为还要不断引入更多的资源,比如比赛时的天气因素或者分析结果。

  他指出:“如果你真的想要预测冠军,就需要大量的信息,但短期内还不至于达到TB或PB的级别。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐