平庸向左,黄仁勋向右

1.

创立一家公司很容易,保持一家公司活着很难。

为了让曾经多次处在存亡之际的英伟达能够活下去,联合创始人兼 CEO 黄仁勋 (Jensen Huang) 在过去的29年里曾经做出许多在当时极具风险的决定。

神奇的是,这些决定当中的绝大多数,最后竟然都被证明是正确的:从 TNT,到可编程 Shader(着色器),再到 CUDA 架构以及其开源和前向兼容,以及总是超过当前图形市场主流应用场景需求的算力和存储性能水平——这些关键的技术和产品,以及革新性的战略决策,次又一次将英伟达在计算市场的地位推至新高。

在营销策略助推下,今天的人们尊称黄仁勋为“AI教父”,夸张地将英伟达的图形计算产品描述为“核弹”。然而实际上,黄仁勋并没有什么封神的幻想——他做出的很多决定,完全是为了避免自己最害怕的事情发生:

英伟达沦为一家平庸的个人电脑零部件供应商。

“屏幕上就有那么多像素,芯片上能加的功能就那么多,但晶体管的数量还在不断增加。这样下去,在某个时间点上,图形计算性能完全可以足够任何人使用。你看今天各种集成显卡,性能又好,又不要钱,就会发现这个分析是完全正确的,”

“那么,如果我们不重新发明电脑图形计算,不革自己的命,不彻底解放这块图形处理器的能力的话,结局就是英伟达必然会被商品化 (commoditized)。”

——黄仁勋,via Stratechery 

带着这样的恐惧,黄仁勋走上了一条自己革自己命的创业路。这条路,走到今天,已将近三十年。

2.

最近,英伟达召开了年度技术大会 GTC 2022,发布了最新一代商用级 H100 GPU,和以知名计算机科学家 Grace Hopper 命名的 Hopper 架构。新架构采用台积电4纳米制程工艺,内存带宽达到每秒3TB,在32和64位浮点计算上相比前一代 Ampere 架构的 A100 GPU 快了三倍。

H100 已经成为最新一代“核弹”,但英伟达还有更多杀手锏:

通过最新的互联技术 NVLink 技术,8张H100单卡连接构成了的 DGX H100 模组化超级计算机,算力达到了惊人的 1EFlops;而 NVLink Switch 技术在扩展性上也获得了史诗级提升,支持最多256张 H100 GPU 互联。

由于 GPU 进行深度学习计算需要大量的内存带宽,英伟达甚至和 ARM 合作开发了一款采用全新 Grace 架构的 CPU,专门用来辅助 GPU 进行带宽分配,从而让 GPU 可以全力开动进行计算,不会因为在内存带宽上受到限制而影响发挥。

早已在深度学习计算方面身位领先的英伟达,再一次打造了新的 GPU、CPU 架构、互联技术。今天这家公司早已不再是单纯的显卡技术公司——它已经将图形加速计算的功力推到极限,为深度学习计算带来了新的可能性。

在 GTC 大会上,黄仁勋认为人类将会迎来 AI 被 AI(而不只是人类)所创造出来的时代,并将其称为“生产智能”(intelligence manufacturing)。

会后,黄仁勋接受了 Stratechery 博客主笔/知名分析师 Ben Thompson 的采访。特别的是,黄仁勋在这次采访中谈到了一些过去鲜少讨论的话题——特别是对于公司平庸化的恐惧,以及英伟达三十年的创业路走到今天的感悟。

在他看来,没有比让英伟达变成 “Wintel” 生态下的一家普通供应商更可怕的事情了。

2009年,黄仁勋在斯坦福大学做了一场名为“Vision Matters”的演讲。其中,他回忆起了公司在2000年推出可编程像素着色器(programmable pixel shader, 以下简称可编程 shader),在当时差点要了公司的命。

但是如果没做那个决定,英伟达可能就不会获得今天的行业地位。

作为独立图形处理器概念的主要推手,英伟达拿着红衫等投资者的2000多万美元苦心研发 GPU 技术,虽然头两款产品 NV1、NV2 GPU 都遭遇了失败,还好 NV3(正式命名为 RIVA 128)由于技术相对先进、价格低廉,推出不到1年就实现了100万枚出货量。在 RIVA 128 打下的基础上,英伟达又在次年推出了 RIVA TNT,性能显著优于当时的竞争对手 3dfx 的产品,成功揽下当时多家显卡厂商加入其阵营。

RIVA 128 和 TNT 的优秀战绩,助推英伟达在1999年成功上市,然而当时的黄仁勋已经不再看好这两款产品所代表的技术理念了。

早年的 GPU 产品,包括 RIVA TNT 在内,都属于固定功能的芯片。这类芯片的优势就是运行固定功能的效率很高。

然而在黄仁勋看到的未来里,提升 GPU 的纯粹性能将变得毫无意义。因为屏幕上的像素总量是有限的,一个处理器里能放进去的既有功能也是有限的。结果就是,总有一天人们将会满足于现有 GPU 的性能,不再需要更新更快的 GPU……届时,英伟达将会沦为一家平庸的 PC 零部件供应商。

于是,黄仁勋开始了英伟达的第一次“离经叛道”:推出了可编程 shader。

英伟达这样做的背后理念,就是改变 GPU 作为固定功能处理器的身份,将它变成一个可编程的处理器,让用户可以在英伟达 GPU 上做更多创意工作,包括3D渲染、特效制作、游戏开发等——这样,英伟达 GPU 的用户将不仅仅是普通消费者,也将包括开发者。

3.

这次转型差点要了英伟达的命,不是因为这个方向错了——它是正确的,只是发生得太早了。

前面提到,面向特定功能设计的处理器运行起来效率高,而如果要把 GPU 做成可编程的,则 GPU 的运行效率会比之前低,而且要在算力、内存等各方面的增加额外成本。

英伟达把可编程 shader 及适配显卡做出来了,可是图形开发者还没有准备好为未来买单。他们所开发的游戏和图形计算应用,在当时还无法从可编程 shader 技术中获益。结果就是,英伟达搞的新技术和产品很好很强大,从消费者的视角来看却过于昂贵且没用。

“这个处理器架构是全新的,可编程像素 shader 在过去从来没有过,可编程的 GPU 处理器和编程模型也前所未有——所有这些尴尬的现实,我们都只能咽到肚子里。”黄仁勋说。

GTC 2020,黄仁勋从烤箱里拿出即将发布的显卡
GTC 2020,黄仁勋从烤箱里拿出即将发布的显卡

“咽下去之后,我们接下来组建了编译器团队,研究 SDK和库,到处去找开发者去跟他们安利我们的新架构,让他们意识到这套东西的好处——我们甚至要自己动手开发库,拿给开发者看把他们的应用导入到我们这里有多容易、有哪些好处;我们甚至用了市场营销的预算,帮开发者营销他们用我们架构开发的新产品,来创造市场需求……”

久而久之,英伟达不再是一家硬件公司了。可以说它是为了体面地活下去,而不得不实现了“硬件技术+软件体验+开发生态”垂直整合的技术平台公司。

后来的 GeForce、CUDA、Tensor Core 等,每一个在英伟达公司技术发展历程上写下浓墨重彩一笔的技术,从某些角度上都和可编程 shader 相似:超前的技术能力、较高的可编程自由度、面向生态合作伙伴开放的商业模式等。

但与此同时,它们其实都是黄仁勋为了避免英伟达走向平庸而决定推出的。如果没有 Shader、CUDA、RTX、DGX 等这些在各自的诞生时间点上显得“离经叛道”的技术,今天的英伟达恐怕早已沦为一家普通的显卡公司,和今天挂着 GeForce 的名号生产显卡的那些我们耳熟能详的品牌,没有多少不同。

4.

英伟达最近几年全力投入 AI 技术的支持,同样是避免公司走向平庸的结果。

按黄仁勋的说法,英伟达公司历史上几次具有里程碑意义的关键技术推出,背后其实都是对自家 GPU 技术的发展成果进行了“泛化”(generalize),然后发现居然它可以做更多不同的事情。

结果就是,英伟达在不断迁移和泛化 GPU 能力的过程中,建立了一套全新的,基于 GPU 技术的计算机科学构。

而当人工智能时代来临的时候,英伟达搭建好的这套新架构非常适合用来加速深度学习方面的任务。

正是在这样的条件下,黄仁勋从之前的显卡大王变成了如今的 “AI教父”。但如果有人以为英伟达只是碰巧赶上这波 AI 的浪潮,那他就大错特错了。

早在十年前,黄仁勋就已经相信,图形计算加速成就了早年的英伟达那样,而新时代的英伟达应该全力投入到 AI 计算的加速上,而且没有别的公司比英伟达更适合做这件事。

一个最典型的例子就是机器人 (robotics)。黄仁勋表示:“一个经典的机器人问题,涉及感知、推理、规划,以及之后许许多多的不同任务。这些任务涉及多个传感器的大量实时数据;并且出于多元化和冗余的目的,处理器需要用不同的算法进行处理。”这些任务的特性,正好是英伟达的 GPU 架构所擅长的。

包括 AI、自动驾驶、数据中心/高性能计算、超级计算机、工业边缘计算、元宇宙相关的融合现实互动技术等等……现在如果我们去英伟达的网站上,会看到这家公司简直无所不做,早已不是大部分普通消费者用户所认识的那家显卡公司了。

这些较新的业务,都可以被视为英伟达避免平庸而不断突破自己边界的体现。

在采访中,黄仁勋说自己这一生最大的礼物,就是身边有着一群世界上最富有才能的同事。而他自己最大的才能,是坚韧不拔。

“我坚持这条路的时间比其他人都长,但那只是因为我有耐心而已。只要我选定了一条道路,我能够一直在上面走很长很长的时间。这就是我的耐心。”