登陆注册
3057800000012

第12章 棒球比赛预测:球探和数据怪才,谁更胜一筹?(2)

尽管鲍勃和马丁内斯的例子有些不合常规,但确实很少有球员如那条老化曲线般平缓发展,高峰低谷间断交错的形式反而更为常见。也就是说,真实的老化曲线充满噪声,而且噪声非常大(见图3–2),不会那样平缓。平均值就像“每个家庭拥有1.7个孩子”这样的说法,不过是一个统计学的抽象概念。按加里·赫卡贝的推论来看,也许詹姆斯的老化曲线没能传递出噪声中的某些信号。也许像游击手这样处于对体能要求比较高的位置的球员,其技术水平的衰退速度要比打右外场的球员快。也许那些颇具运动天赋的全能型球员的职业生涯会比那些只有一两个强项的球员要长。

赫卡贝的系统则假定存在26条明显的老化曲线,每一条都适用于不同类型的球员。如果他的假设是正确的,你就能评判出哪条曲线适合哪个球员,并以此预测出该球员职业生涯的走势。如果一个球员符合鲍勃·霍纳的老化曲线,那就预示着他会少年得志,但衰退期也会早早到来;如果一个球员符合马丁内斯的老化曲线,那就预示着他将大器晚成。

在赫卡贝的“弗拉迪米尔”预测系统中,每个球员对应着不同的曲线;而在詹姆斯创建的平缓的预测系统中,所有球员都对应着同一条曲线。尽管如此,从赫卡贝发布的一些预测结果看,“弗拉迪米尔”系统的预测准确度比詹姆斯的老化曲线高不了多少。预测准确率不高,在一定程度上是因为赫卡贝设定的26条曲线没有科学依据,只是随意选定了这个数目。这样一来,为球员匹配曲线就成了一个科学和艺术并重的技术活。

然而,要将棒球队员的技术水平发挥到较高的程度,一个人一定要对自己的身体技巧和精神技能进行多种多样的排列组合才行:肌肉记忆、体能耐力、手眼协调性、击球速度、投球识别力以及失利时强大的意志力,这些因素都要科学合理地运用。如此看来,“弗拉迪米尔”预测系统关于不同老化曲线的概念貌似更符合人类行为固有的复杂性。在创立PECOTA预测系统时,我尽量从詹姆斯和赫卡贝的系统中借鉴了一些元素来完善自己的预测系统。

在1986年的《摘要》中,詹姆斯介绍了“相似分数”的概念。顾名思义,设计者设计了这些分数,用来对任意两名大联盟球员的职业数据的相似性进行评定。这个概念比较简单。评定人员首先将两名球员分为一组,每组赋值1 000分,每发现两人之间的一次不同则扣若干分。结果,高相似度的组可得到950分甚至975分,但低相似度组的组员间的差异会迅速增大。

略懂棒球历史的人都会发现相似分数的方法很得人心,评定人员并没有一门心思地只顾研究球员的统计数据,而是提供了一定的历史背景。例如,佩德罗亚在25岁时的数据与历史上的很多球员相似,比如20世纪70年代统帅明尼苏达双城队的队长、一个伟大的巴拿马人罗德·卡鲁,以及大萧条时期老虎队的明星查利·格林格。

詹姆斯主要是想用相似分数进行反向检测,比如分析一个球员是否有资格入选名人堂。如果想论证你最喜爱的球员是否够资格入选库佰斯顿球员名册,就可以借用相似分数。若通过观察你会发现已经入选的球员中有9/10的人的数据和他的相似,你就得到了一个非常有力的论据。

相似分数也可以用于预测吗?假设我们能够确定有100名球员某一个年龄段的数据与佩德罗亚相同年龄段的数据极为相似,那么根据这100名球员的职业生涯的整体表现难道不能预示佩德罗亚的职业生涯走势吗?

为了验证这个想法,2002年我还在毕马威工作时就开始利用闲暇时间慢慢地推进自己的计划——创立PECOTA预测系统的雏形。这一系统是由五花八门、内容丰富的Excel电子数据表格构成,而表格正好也是我在毕马威工作时使用的主要工具(所以每次那些老板经过我的座位时,都以为我正在努力为客户建立细致的表格呢)。

就这样,上班时忙里偷闲每天抽出一两个小时,晚上到家再奋斗几个小时,我最终建成了一个数据库,其中包含10 000多个赛季(包含了自第二次世界大战开始后的所有大联盟赛季)以及所有球员的对比演算数据。这一方法充分利用了棒球比赛无与伦比的丰富数据,从某种程度上讲,它比詹姆斯的方法更细致。在对比一组球员时,此法采用最近邻体分析法,另外,考虑的因素外延更广,甚至包括球探经常关心的球员的身高、体重等因素。

PECOTA预测系统为不同类型的球员提供了不同的老化曲线,这一点与赫卡贝的系统相似,但PECOTA并不局限于26种曲线,相反的,它从棒球庞大的数据库中识别出一组数据相似的球员,综合分析后自然生成了这组老化曲线。如果与佩德罗亚数据相似的球员最后都成了大联盟中的优秀队员,这就预示着他成功的概率也比较高。

但通常,那些拥有相似数据的球员各自又是一个复杂的混合体,其老化曲线也会在某个时间点开始相互偏离。之前提到,依据詹姆斯的相似分数方法,佩德罗亚的数据先是与格林格和卡鲁相似,后两位球员在其漫长的职业生涯中战绩显赫,入选了名人堂。但此后佩德罗亚的数据又与蒙特利尔博览会队实力平平的二垒手乔斯·维德罗极为相似了。

对小联盟中的球员而言,这种差异更为明显。2009年,PECOTA预测系统为亚特兰大勇士队19岁的“明日之星”杰森·海沃德识别出的最相似球员,竟包括从名人堂球星到谋杀犯球员。奇珀·琼斯与海沃德的相似度排名第一,这位名人堂球星、前亚特兰大最伟大的球员之一为俱乐部效力17个赛季,职业生涯里的平局击球率为0.304,外加450次本垒打。而达奈尔·斯坦森是第二个与海沃德相似的球员,他的结局并不好,本来颇具潜力,却在2003年结束了在发展联盟亚利桑那队的球员生涯后,因屡次犯罪而被追捕,后来开着一辆运动型多用途汽车逃亡。

所有与海沃德相似的球员都是高大的运动全才,在小联盟比赛中展现出高超的技术水平,在选秀中脱颖而出,但是他们的命运却截然不同。而PECOTA预测系统的创新点就在于此,它能够告知球员他们可能遇到的各种命运结局,这些结局参考了数据相似的前辈球员,尤其是那些结局最好与最坏的球员,或结局最有可能再次上演的球员。由此可见,若预测对象是人类行为,那结局更是不胜枚举了。

看到现在,海沃德的命运真可谓跌宕起伏啊。而真实情况是,2009年海沃德荣获年度小联盟“最佳球员”称号,2010年他在自己前30场大联盟比赛中贡献了8个本垒打,完成了自己在勇士队的首秀,还入选了全明星队,这一切都超过了人们的预期。但是,2011年海沃德在大联盟的第二个赛季却不是那么顺利,击球率只有0.227。面对海沃德在2011年赛季的糟糕表现,完善的预测系统仍会找出一个保持乐观的理由:他还是有潜力的,除了平均击球率之外,主要数据仍然保持了先前的水平,而平均击球率本身就比其他数据更容易受到运气因素的影响。

但是,你想要了解的关于一个球员的一切,这些数据都能够告诉你吗?10年前,这个问题可是棒球界最热的话题。

球探与数据怪才的矛盾冲突

只要对《点球成金》稍有了解你就会知道,书中讲述了“统计专员”与“球探”这两个敌对阵营之间的冲突与斗争,他们注重不同的范例,采取不同的方法评估球员的表现。(“统计专员”当然是用数据说话,而球探也有自己的“工具”。)

2003年,《点球成金》一书出版后,迈克尔·刘易斯的读者们一定不会忽略书中对两个阵营敌对状态的描绘(而这本书本身很可能也加重了两者间的敌意)。同年,我参加了在新奥尔良万豪酒店举行的棒球冬季会议,当时的情形一下把我带回了高中时代。一方是老牌球探,他们就像草地上的老水牛一样悠闲自在,偶尔会坐在酒店吧台旁一边喝着威士忌,一边聊着老掉牙的战时故事,更多的时候是把自己关在宾馆的房间里谈生意。这些人从前都是专业从事棒球运动的,而今多半都已届不惑之年甚至是知天命之年了。他们中很多人以前都是运动员,在球场上为棒球运动奋力打拼,后来逐渐进入领导层负责幕后工作,一路平步青云。另一方则是一群数据怪才:二三十岁的模样,背着电脑包,拿着彩色打印的建议书,不停地在大厅的人群中穿梭,希望可以说服某个投资者为自己提供一个工作岗位。平时这两个阵营的交流并不多,他们都觉得对方自大无知且闭目塞听。

两方矛盾的根源也许就在于,球探觉得数据怪才威胁到了他们的饭碗。他们认为球探预算正在缩减,不管这是客观事实还是主观感受,他们通常都会以此为依据,说自己的饭碗难保。在一次围绕《点球成金》展开的激烈讨论的圆桌会议上,洛杉矶安那罕天使棒球队的球探总监埃迪·贝克告诉《美国棒球》杂志的记者:“此刻真是剑拔弩张啊。我们的一些老伙计本不该丢掉工作,现在却失业了。也许有财政或是其他因素的影响,但我们都认为其实是一些懂电脑的人抢走了他们的饭碗,对此我感到十分愤怒。”

我们并不清楚具体有多少支球队削减了球探预算。多伦多蓝鸟队就是其中一支,他们也为此付出了代价,球队在2002~2005年球员选秀的结果都不尽如人意。但缩减预算绝不是当时的球队总经理、比恩的弟子J·P·里恰尔迪一时兴起的冲动做法,而是由于多伦多蓝鸟队的母公司罗杰斯通信公司正受加元贬值的困扰,不得已而为之。

《点球成金》已经出版10年了,球探和数据怪才之间的争斗使他们耗尽了力气。2004年,红袜队在时隔86年之后再次捧得世界联赛冠军,成功的原因在于球队既充分尊重了球探的意见,也对已有数据进行了细致分析,两相结合成为两个阵营和平共处的关键所在。2003年时还被界定为“球探”阵营的许多球队,如圣路易斯红雀队,此后也越来越多地运用数据分析的方法,这些球队现已成为最具创新精神的棒球队伍。而那些原本就偏好数据的“怪才”队,如奥克兰竞技队,非但没有削减球探预算,反而增加了相关投入。

2007~2009年的经济衰退促使球队更频繁地采用数据分析的方法。尽管棒球界算是平稳地度过了经济危机,但仿佛每支球队都突然间变成了“点球成金”的球队,都需要将有限预算的价值发挥到极致。廉价的数据怪才一直都供大于求:从哈佛大学和耶鲁大学毕业的经济与计算机专业的高材生,本可以在投资银行谋一份年薪达40万美元的工作,但他们却更愿意搬到坦帕或克利夫兰,日夜不停地工作,拿到的薪水却只有银行薪酬的1/10。对于球队而言,花4万美元聘用一个数据怪才远比投入4 000万美元引进一个自由球员更值得,毕竟这位自由球员的技术水平注定会下滑,很快就会表现平平。

但这并不意味着数据怪才已经大获全胜了,如果说他们已经证明了自己的价值,那么球探同样做到了这一点。

系统与球探的对决:球探赢了

PECOTA 是“投手经验比对与优化测试算法”(Pitcher Empirical Comparison and Optimization Test Algorithm)英语单词首字母的缩写,这个冗长名称的缩略词正好是20世纪80年代堪萨斯城皇家队的内野手比尔·裴克达(Bill Pecota)的名字,那时的他对我钟爱的底特律老虎队而言一直是一个威胁。

PECOTA预测系统最初是为预测投手——而非击球手——的表现而设计的。投手的表现极难预测,因此在用WFG系统进行过数年实验之后——你肯定能猜出来这个缩略词代表的含义——《棒球规程》最终还是放弃使用它,于是年刊中的预测栏曾一度空白。意识到这是一个商机后,我向赫卡贝推荐了PECOTA系统。让我感到有些意外的是,他和《棒球规程》的同事们对这一系统一致认可,他们愿意以股权交换的方式购买PECOTA系统,条件是我得再开发一个相似的系统,用于预测击球手的表现。我欣然地接受了这笔交易。于是,第一组PECOTA预测结果便发表在2003年冬季的《棒球规程》上。

2003年赛季结束时我们发现,PECOTA系统确实比其他商业预测系统的效果要好一些。事实上,2003~2008年这几年,无论在我们自己还是别人的测试中,PECOTA系统的预测准确度总是与其他系统相当或高于其他系统,同时还推翻了拉斯韦加斯赌场惯用的台词。一些意外的成功使PECOTA名声大振,比如,芝加哥白袜队在2005年加冕世界联赛冠军,但2007年赛季PECOTA却预测该队只能获得72场胜利,惨淡结束赛程。这一预测必然招致芝加哥媒体和白袜队决策人员的一片骂声。但是,这个预测结果却惊人地准确:白袜队最终以72场胜利、90场失利的成绩结束该赛季。

然而,在2009年前后,PECOTA预测系统却被其他系统追上甚至赶超了。正如当年我借鉴詹姆斯和赫卡贝系统的优点一样,其他系统的研发人员也汲取了PECOTA系统的长处,并创建出自己的预测系统,而且有些系统非常棒。各个系统都会对大联盟球员的表现进行预测,如果每年都对这些系统的最佳预测结果做个排序,你会发现,那些最棒的预测系统彼此之间的差距不过一两个百分点。

但我当时之所以创立PECOTA,还有另外一个目的:对那些像佩德罗亚一样的小联盟球员的表现进行预测,这项任务可能要困难许多。因为当时鲜有预测系统对小联盟进行预测,直到最近才出现类似的系统,所以当时PECOTA系统唯一的竞争对手就是球探。

2006年,我首次公布了PECOTA系统预测出的100名最具前景的球员名单,和同时期《美国棒球》刊登的球探所列的名单形成对比。PECOTA系统依据这些球员入选大联盟后的前6个赛季中为球队做出的贡献对他们进行排名。

2011年赛季,也是预测结果发布的第6个年头,此时的我终于可以打开“时间胶囊”,看看这些预测是否准确。虽然名单中的球员如今都还相当年轻,但他们中谁是明星球员,谁是替补球员,谁已江郎才尽,已经一目了然。

同类推荐
  • 谁撬动了银川经济

    谁撬动了银川经济

    九尺之台,起于垒土,任何一段辉煌的背后,都有血汗、泪水、艰辛和失败。本书是一部着眼经济、落笔人生、弘扬创业、宣传励志的书籍,它可以见证企业家们从一个专业的经济工作者向宣传思想工作者转变的心路转折,但更为重要的,是它同时“撬动”了企业家们对宣传思想工作为经济发展服务的初衷和工作理念。
  • 矿业权交易操作实务

    矿业权交易操作实务

    本书从矿业权出让、转让的现场交易和网上交易两方面叙述了整个矿业权招标、拍卖、挂牌交易过程。详细列出了每个阶段、每个环节的操作方法和文本式样。可使初始接触矿业权的人士尽快了解矿业权交易操作,也可供经常接触矿业权的人士参考。
  • 中国宏观调控三十年

    中国宏观调控三十年

    本书包括政府经济调节职能与加强宏观调控、货币政策有效性的市场主体行为分析、价格管制与宏观调控、当前宏观调控政策困境下的制度转型、中国经济发展战略的回顾与展望以及美国次贷危机对中国经济的影响与启示等内容。
  • 三都澳海岸带区域经济发展研究

    三都澳海岸带区域经济发展研究

    三都澳地处海峡西岸经济区的北翼,是我国重要的天然深水良港。长期以来,如何开发三都澳、摆脱经济落后的局面,不少学者都做了专题研究,但尚未对三都澳海岸带的资源开发与经济发展进行系统性的研究。本书对三都澳海岸带建设提出了具体的对策与措施,可为有关学者和政府决策者提供科学依据。
  • 经济学常识一本通

    经济学常识一本通

    你是一个理财高手吗? 你有做生意的潜质吗? 你是否能合理支配薪水?你的理财盲点在哪里? 你的赚钱能力有多强? 你是否适合做投资? 是什么决定你的生活水平?经济学一直被称为“沉闷的科学”,因为经济学家经常带来坏消息。他们会指出一个表面上看来很吸引人的项目,很可能结局并不那么美妙… …《经济学常识一本通》以经济学教材为底本,整合经济学各分支理论常识,一本书能让读者通读整个经济学。同时用简洁易懂的文字阐释经济学常识精髓,再给这些理论配以精彩绝妙的故事加以解说,让象牙塔里的镇塔之宝跟读者做亲密接触。
热门推荐
  • 逆掌乾坤

    逆掌乾坤

    三千大道,何为逆?顺成人,逆成仙,全在阴阳颠倒颠。他,本是安分守己的本分人,直到体内燃起了玄鸟朱雀的腾腾烈焰……老子何不逆成仙,执掌三界生死权!已完成150万字作品《大咒天》,喜欢的朋友可以点击直通车阅读!
  • 三生轮回咒

    三生轮回咒

    天地相争,人妖战乱。原本安逸的生活被打碎,为救父亲的他在愤怒时莫名得到了一股力量,却毫不知情。是情绪激发的潜力?还是血脉?亦或者是其他原因,不得而知。在机遇下得知有力量的少年不懂得如何运用经常因此而受伤,他决定去寻找方法。而父亲却被妖族杀害,村子被遗弃…愤怒之下的少年为复仇,又为改变天下而走上修道成神之路…
  • 绿野仙踪(语文新课标课外必读第四辑)

    绿野仙踪(语文新课标课外必读第四辑)

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。
  • 超神打造

    超神打造

    抱回个垃圾筒居然藏个女超神打造者,未来科技打造超越现实的所有物品,不过需要杀变异体保护世界换取积分。尹龙从次开始了每天刷刷副本保护地球,闲来低调的用未来科技拯救世界,保护小美女呵护天使然后与腹黑御姐一同作战的精彩人生。
  • 三国父子兵

    三国父子兵

    打虎亲兄弟,上阵父子兵!上一世的骨肉之恩无法得报,我后悔!这一世我将倾其我所有报之,我无悔!黄忠,这一世的父亲,我要让你的名字响彻这东汉末年!孩子,只要你好好活着,就是对为父最大的安慰!董卓、袁绍、曹操、刘备、孙坚......不管有多少艰难险阻,都让我父子共同面对,让这大汉为我父子而震撼吧!
  • 染墨華

    染墨華

    谁,执我之手,敛我半世癫狂;谁,吻我之眸,遮我半世流离。谁,抚我之面,慰我半世哀伤;谁,携我之心,融我半世冰霜;谁,扶我之肩,驱我一世沉寂。谁,唤我之心,掩我一生凌轹。谁,弃我而去,留我一世独殇;谁,可明我意,使我此生无憾;谁,可助我臂,纵横万载无双;谁,可倾我心,寸土恰似虚弥;谁,可葬吾怆,笑天地虚妄,吾心狂。“我一生无所求,只求能遇到一个能真心爱我、待我、永不弃我的人。你说你今生为我而生,又愿为我而死。我不要你的山盟海誓,只求阿墨你,能陪我一生一世一双人。”
  • 星河武皇

    星河武皇

    见习武者,准武者,F级武者,E级武者……人力有穷时,但武者的道路似乎没有尽头。从地球小城迦南市走出来的叶河川,带着一往无前的气势,一路上披荆斩棘,破灭四方,毅然踏上了一条与世为敌的求圣之路!!
  • 逐仙纪

    逐仙纪

    一个普通的山间少年;一个浩瀚的大千世界;将会发生怎样的故事。
  • 精灵之泪

    精灵之泪

    “精灵是不会流泪的,但我给你三年时间,找到那唯一一颗精灵之泪!”云巅之上,一袭长袍的老人看着他,道。他没有说什么,只是决然转身,踏向精灵国度。老人盯着那桀骜的背影,若有所思。那唯一一颗精灵之泪,乃精灵国度的至宝,同时也关乎整个精灵族的生死存亡......他一路斩妖除魔,一路寻找传说中的精灵国度;挡他者,死;阻他者,亡。谁若阻挡他的步伐,他都会毫不留情的斩杀;神挡杀神,佛挡弒佛。究竟是什么,让他如此拼命;不外乎一个字——情......神识之中,那被封印的魔君,一点一点苏醒;届时,天地万物,俯首称臣。
  • 刀尖上的道德:透过文本看中国侠史

    刀尖上的道德:透过文本看中国侠史

    本书共分八章,内容包括儿女英雄;“云里手”、“莫拿我“:侠耶,匪耶,抑或官耶;复仇的女人们;包公挥手侠前进;与天地相终始;英雄美人;侠客与刺客等。