经常有关注我们的朋友私信来问关于一些常见的高阶数据的问题,例如它们是如何计算,有哪些优点,又有哪些局限性,如何看待和使用这些数据。在赛季期间,我们一般很难有闲暇来谈论这些问题,所以这个休赛期,我们会尽可能的选取一些有趣的切入点,尽可能少的列让人感到厌烦的公式,让大家轻松的了解这些高阶数据的优缺点和使用场景,做一个数据科普系列。
什么是真实命中率?
真实命中率(True Percentage)是一项衡量出手效率的百分数数据,通常会被简写为TS%,本质上也是投篮命中率,但由于篮球比赛每次出手的分值并不是完全相同的,真实命中率针对三分和罚球做了一定的修正。它的计算公式是:
TS% = 100% * PTS / [ 2* ( FGA + 0.44 * FTA ) ]
它的核心思想很简单,就是把每一次出手都调整成一次两分出手,体现球员每次出手的得分回报,而我们知道篮球比赛就是比谁的得分多,同时又是一种带有球权强制交换的回合制游戏,因此比赛双方创造得分的机会实质是有限的,如何把握机会成为了取胜的关键,真实命中率就是一种体现机会把握率的数据。
为什么需要引入真实命中率?
著名数据博客NylonCalculus的专栏写手Justin两年前曾写过一篇介绍TS%的文章,其中举了一个非常合适的例子来说明引入TS%的必要性。04年总冠军活塞的场上大脑比卢普斯的职业生涯投篮命中率仅有41.5%,甚至有几个赛季是低于40%的,这其中也包括了他的冠军赛季(39.5%)。传统观点会认为他可能是一支优秀球队的“问题”,而事实上,比卢普斯的巅峰期每36分钟出手5次三分已经能排到联盟前20%,同时他也具备一定的造犯规能力,还是出色的罚球手。因此,在05年Handcheck吹罚更改后,他的真实命中率连续多年维持在精英级的60%以上。球队的“问题”?不,他是名副其实的冠军后卫。所以,从这个案例上,我们就能发现,由于不同出手的分值和难度差异,导致投篮命中率无法准确的反映球员把握得分机会的能力,真实命中率是远比一般的投篮命中率可靠的数据。
为什么是0.44?
在真实命中率的计算里,我们需要把罚球也换算成一般的出手机会,通常来说,一次投篮犯规可以获得两次罚球机会,这意味着,一次罚球占用了0.5次出手。但是我们必须要考虑加罚,技术犯规罚球,恶意犯规罚球,三罚的第三罚,这些罚球不会额外占用出手机会,因此实际每次罚球占用的出手机会小于0.5,大约0.44次。
这里可能就有朋友想问了,那为什么要用这个“大约0.44”呢?而不是精确的使用球员真实的回合占有数。这是个很好的问题,前阵子@静易墨也问过我类似的问题,在“真正聪明的篮球分析网站”——法尔克的cleaningtheglass上,他有一项名为PSA(Points per Shot Attempt)的数据,即每次出手得分,这个数据本质上就是不采用0.44,而是真实的尝试出手次数的TS%。静易墨觉得这个数据比TS%更准确,为什么不都采用这个数据呢?他说的没错,PSA更准确,但之所以TS%被更广泛采用有两个原因。
首先,以2017-18赛季为例,我们筛选所有投篮出手次数超过100次的球员,从比赛的play-by-play日志中提取每一次罚球产生的原因,去除那些诸如加罚,三分罚球的第三罚,技术犯规罚球这些不占用额外出手次数的罚球,计算出球员罚球占用的真实出手尝试次数。这样,我们就可以得到一个真实真实命中率,也就是PSA(实际PSA是一个百回合数据而不是百分数,这里为了和TS%比较更方便,也算作百分数),用这个结果和TS%进行比较。
这张图里横轴就是TS%和PSA之间的差值,左侧为被TS%低估的,右侧为被TS%高估,我们可以看到被TS%高估超过1%的球员仅有1人,而被TS%低估的球员也仅有4人(被低估的球员大部分是执行了大量技术犯规罚球的,有一些分析师认为计算PSA时应该剔除技术犯规罚球的部分,因为获得这个罚球机会通常不是因为球员的能力),绝大多数球员的误差都在0.5%以内,可见0.44这个数字是十分准确的。
其次,前面已经提到了,TS%的计算仅仅基于得分罚球和出手数三项基本数据,这三项数据从1946-47赛季,也就是NBA的第一个赛季起就开始被统计了,而我们刚刚计算PSA时所用到的play-by-play比赛日志,最早也只能追溯到1996-97赛季,也就是说,NBA整整五十个赛季里PSA是无法计算的。再者,即便是最近20个赛季,计算TS%也远比PSA方便。
所以这就成了一个工程问题,一项需求可以以牺牲极小的性能为代价,大幅度降低工时,同时又能应对更广泛的工作环境。那么,为什么要去提高那么一丁点的性能呢?
TS%多少算高,多少算低?
一般来说,TS%的联盟平均水平大约在53%-54%之间,通常低于50%会被认为非常糟糕,大部分都是一些既不能杀入篮下得分或造犯规,也不能投三分,只能在中距离干拔的球员,也就是所谓的不够“魔球”的球员。而高于60%则会被认为是这一项上的精英球员。TS%高的球员一般是终结型内线,善于突破造犯规的持球手或是高产高效的三分手。
从今年的整体(赛季出手超过300次的球员)分布情况来看,大多数球员的TS%集中在52%到58%之间,今年TS%最高的球员是库里(67.5%),而只有两位球员的TS%低于45%,分别是44.4%的鲍尔和43.7%的尼利基纳。
不过,TS%水平的高低有时候不得不结合时代来看,80年代以后的大部分时期,TS%都稳定在53%到54%之间,但在20世纪末,21世纪初的几年里,由于规则和打法的双重作用,可以说是联盟历史上最黑暗的几年,进攻成功率非常低。联盟平均TS%远低于其他赛季。因此,如果涉及到跨赛季比较,又正好与那几个赛季有关,应当考虑用“相对联盟平均TS%”来进行比较。
如何拆解分析TS%
具体的拆解分析TS%会涉及到很多方面的因素,需要具体问题具体分析,这里很难笼统的给个定论,但大致可以从两个方向来考虑。
首先,应当明确一个产量和效率之间的关系,TS%是每次出手的得分回报,也就是所谓的效率,而能代表产量的数据也很多,这里我们采用与TS%大致对应的数据USG%,USG%是球员在场时投篮出手,罚球,失误所造成的本方进攻回合结束的次数占本方总进攻回合次数的比例,一般翻译成的使用率,但从含义来说更好的翻译是回合占有率。通常来说,产量越高,也就是所谓的承担任务越重,效率就会越低。这一点国内球迷两年前都还很少有人意识到,今年开始有大量的自媒体写手也开始用下面这样的图来解释这一点。
所以,我们在看TS%时往往需要综合球员的回合占有率来看,比如同样处于高TS%的球员,库里,杜兰特的高效和小乔丹,科沃尔的高效显然是有不同意义的,同样是高效的情况下啊,高产的更有意义。同理,我们虽然看到威少的TS%略低于平均水平,但他扛起了大量的球权,开发出了进攻机会,所以稍低的效率并不意味着他比那些中产中效球员差。不过,有一些倾向于中距离打法的球员并不太容易因为承担球权的多少而引起TS%的浮动。
其次,我们应当去拆分TS%的组成和球员具体的投篮分布。拆分组成很好理解,TS%的构成里包含了三分和罚球这两项,可以通过看球员的三分出手比例3PAr和罚球率来FTr来判断。比如科沃尔的3PAr高达0.777,即77.7%的出手来自三分线外,所以科沃尔TS%高的来源主要是大量的三分出手。再比如德罗赞,他中距离的打法本来是非常低效的,但他还能维持中等水平的效率,这得益于他较强的造犯规能力,连续五年每36分钟罚球超过7次。
观察球员的具体投篮分布也是了解球员TS%成因的重要部分,比如兰斯-史蒂芬森,他三分线外的出手不算多,命中率较差,篮下出手也不多,多数投篮集中在中距离,所以他的TS%较低就完全符合一般的理论,所谓的打法不够魔球,与他相反的哈登就不必说了,三分,篮下,罚球,该有的一项不少。再比如戈贝尔,小乔丹等人,他们有极高比例的篮下终结出手,TS%高也在情理之中。有一些球员则是特殊情况,比如鲍尔:
球哥的投篮分布已经非常魔球化了,51%的出手来自三分线外,超过同位置83%的球员,31%的出手来自篮下,超过同位置55%的球员。所以他的TS%低的令人发指,原因就只是真的太铁了。
我们在这里只是简单的讲几个例子,更具体更深入的拆解分析还需要结合更多数据和比赛场景来解读,这里的两点仅作为一个大致的思考方向。
TS%有什么缺陷么?
一般来说,大家总会去谈论某个数据的缺陷,说一些诸如“XX数据偏向于某类球员”这样的话,很多时候这是对的。但如果在TS%这个问题上说“TS%偏向于那些三分多罚球多的球员”是不合理的,因为在其他说这类话的情形中往往意味着数据的设计缺陷导致了数据对某类球员的高估或是低估。但TS%并不是评估什么,它只是客观的记录球员的每次出手能得到多少的分数回报。三分多罚球多的球员在TS%上显得好看是因为他们确实比其他球员有更高的得分回报。
另一种更科学的质疑是,罚球相比一般的投篮出手更难获得前场篮板,三分相比中近距离的出手也更难获得前场篮板,因此TS%并不能像它的公式展示的一样等效于每次出手的回报。对于这个问题,我和NylonCalculus的专栏写手Justin的观点一样,这本来就不是TS%应该承担的任务,这是一个篮板问题。我们本来就不应该指望一个关于投篮效率的数据能够回答球场上的所有问题。
因此,我倾向于认为在TS%合理的应用范围内它并没有致命缺陷,它是一个非常可靠的数据。
还想了解更多关于数据的问题,该怎么办?
当然是关注“篮圈即是原点”啊(没错,这就是广告)微博和微信公众号都是这个名字。
来源:知乎 www.zhihu.com
作者:知乎用户(登录查看详情)
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载