英伟达“春晚”上菜！RTX 40系显卡发布、“雷神”超级计算机，再次刷新科技极限

又到换显卡的时候了——如果平台有货、你还有肾的话……

当地时间9月20日，英伟达在 GTC 显卡技术大会上，终于发布了万众期盼的 RTX 40 系列显卡。其中 4090 起步价就高达1599美元(￥11200+)。

这个价格，难怪发布会后，网友恶搞的图就纷纷上线……

除了 40 系列显卡之外，同场发布的，还有英伟达在图形计算架构、游戏开发、AI 加速、工业元宇宙、云计算、量子计算等方面的新产品、技术、最新进展。

它们包括（并不限于）：

全新 GPU 架构 Ada Lovelace，安培 (Ampere) 架构的升级版，也是40系列显卡性能巨大提升的功臣；
RTX Remix，一个游戏 mod 开发工具，能够为几乎任何3D游戏添加光追效果
“核弹”H100 AI 加速 GPU，已经全面启动生产，即将发货；
“雷神”(Thor) 超级计算机，整合 Grace（CPU）、Ada（GPU）、 Hopper （AI加速计算）三大能力，适用汽车、医疗、工业等领域。以汽车为例，单机即可撑起整个自动驾驶系统+车机+车载娱乐系统；
Omniverse Cloud 服务，能够连接几乎所有主流大型3D工业/设计应用的云端基础设施（IaaS），让元宇宙开发可以在多端任何设备之间无缝工作；
Nemo LLM 系列，一个超大规模神经网络开发工具，能够显著加速大规模神经网络模型的训练、调优和推理等，包括面向自然语言、生物制药等多个场景的子服务。

其中，最新的 Ada Lovelace 架构，可以说是绝大多数新产品和技术突破的背后功臣。这是英伟达推出的全新 GPU 架构。主要特性为第三代 RT Core 光追核心，吞吐量为前代两倍；第四代 Tensor Core 张量核心，张量矩阵计算性能为前代两倍；Ada 架构的 CUDA 核心，显著提高AI 加速，以及3D图形计算的性能。

架构来自于“史上第一段电脑程序”的作者，英国数学家艾达·勒芙蕾丝伯爵夫人图片来源：英伟达

接下来，一起来看这一届英伟达“春晚”，都给大家送上了哪些硬菜。

RTX 4090 & 4080

黄仁勋老板手里拿的这张是英伟达自己的 RTX 4090 Founders Edition（16GB），采用了以往创始人版本基本相同的外壳设计：

目前从华硕、七彩虹等合作伙伴那边看到的首批 4090 和 4080 显卡设计普遍采用全尺寸、三风扇、3-slot 厚度：

RTX 40 系列显卡是：

英伟达最新推出的 Ada Lovelace 架构的第一款显卡，
采用了最新版 DLSS 3 深度学习超级采样技术、
着色器 Shader 执行重新排序 (SER) 技术、
Ada 光流加速器、
第八代英伟达双AV1编码器、
24GB GDDR6X 显存

在游戏性能方面，40 系列最大的性能提升来自于最新版 DLSS 3 技术。

DLSS （Deep Learning Super Sampling，深度学习超级采样）能够调取低分辨率的当前帧和高分辨率的上一帧，使用卷积神经网络 (CNN) 自动编码技术来提前预测出高分辨率的当前帧。

DLSS 3 的最大突破，在于在深度学习超分辨率技术的基础上，增加了光学多帧生成能力，并且集成了英伟达开发的高速低延迟向量计算技术 Reflex。

DLSS 3 采用的 CNN 自动编码器能够接受4个输入：当前帧、上一帧、Ada 光流加速器生成的光流场数据，以及运动矢量+深度等游戏引擎数据。

最厉害的地方在于 Ada 光流加速器：它能够分析两个连续帧，捕捉导粒子、光照、反射、阴影等不包含在游戏运动矢量引擎计算当中的信息，捕捉这些像素在两帧之间移动的方向和速度，从而独立计算出一个光流场。

结果就是，从这些数据输入当中，DLSS 3 能够精确计算并重建出当前帧的四分之三，外加下一帧的全部，总体重建了总显示像素的八分之七。这样能够极大地提高了游戏帧率和图形质量，进一步降低传统渲染方式对 GPU 和 CPU 造成的负载。

再加上全新的 Shader 执行重新排序 (SER) 技术，和 CPU 的乱序执行一样，是计算技术领域的重大创新，能够通过动态重新调度 shader 负载，更好地利用 GPU 内的各项资源，将光追性能提高三倍，提升25%左右的帧率

英伟达也找到波兰蠢驴合作开发了一个《赛博朋克2077》的光追过载模式，显示在 RTX 4090 显卡上打开 DLSS 3 之后图像输出延迟降低了一半多，帧率提升了四倍，总体性能提升约为4倍。这个模式回头也会推送给 PC 版玩家，在 40 系列显卡上可以打开。

视频来源：CD Projekt Red、英伟达

除了《赛博朋克2077》之外，包括《微软模拟飞行》、新哈利波特游戏、《黑神话：悟空》等在内的30多款游戏，也都将原生支持 DLSS 3 技术：

你的游戏没在列表里？没关系。

为了向游戏爱好者群体里的图形增强 Mod（模组）开发者致敬，英伟达还推出一个模组开发平台，名为 RTX Remix。

一边玩游戏，一边打开这个工具，它能够录制游戏场景数据，直接从 GPU 里拦截渲染指令，包括纹理、几何体、照明数据和镜头位置等，将它们转换为通用场景描述（Universal Scene Description, USD）。

然后，再运用多项技术对其自动增强纹理，甚至可以让一些“上古”时代、不支持光追的32位游戏，实现光追和 DLSS 3 支持。

最后，RTX Remix 可以把这些增强结果打包生成为一个游戏 Mod 文件——结果就是，也许大家不用成天上 Nexus Mods 下图形增强模组了，因为有了 RTX Remix，任何人理论上都可以成为模组开发者，自己动手增强自己的游戏体验！

为了更直接地展示 RTX Remix 的能力，英伟达和水管公司合作开发了一个原版《传送门》+RTX 强化版 DLC，画面质量和光影效果有了巨大提升（见下图右）

总体上，RTX 4090 目前已知只有24GB显存一种配置。在开启了 DLSS 3 时，其在光追游戏中的性能比上一代采用 DLSS 2 的 3090 Ti 显卡快4倍，总体游戏性能提升约为2倍，并且功耗维持在相同的450W。

RTX 4080 有12和16GB显存两种配置，总体游戏性能提升为 3080 Ti 的两倍，在 DLSS 3 开启时性能足以超过 3090 Ti。

游戏说完，再来简单看一下创作者方面：在3D 渲染、视频导出，以及 AI 相关任务方面，RTX 4090 的性能比 3090 Ti 快两倍，4080 16GB 版本则比 3080 Ti 快1.5倍。

RTX 4090 起价1599美元，10月12日面市；4080 两种配置都在今年11月上市，起价分别为899和1199美元。

不少朋友可能在不久前加密矿难的时候，才刚刚入手价格正常的30系列显卡……如果你也是这样，那么接下来的消息可能会让你些许悲伤：30系列显卡的英伟达指导价格也有所下调，比目前市价普遍低了50美元左右……

当然，新品发布也少不了吐槽。

华硕板卡的官方图，Mini-ITX 主板+4090，已经不是显卡插在主板上了，而是主板插在显卡上……

还有网友说，跟去年这个“泄露”版4090 相比，大小似乎没差多少……

另外值得一提的是，就在上周末，全球最大的板卡厂商之一，曾被称为英伟达“亲儿子”的 EVGA，突然正式宣布了和英伟达终止合作关系。尽管该公司已经完成了测试产品开发，量产已经做好准备，却明确表示将不会生产和销售 EVGA 品牌的40系列显卡，30系列存量仅用于售后服务，并且完全退出显卡市场……

至于原因，EVGA 指责英伟达拿自己当小弟、当炮灰，不仅不及时提供产品技术和市场相关信息，还用低价 founders edition 显卡打击合作伙伴的销售，一度逼得 EVGA、华硕等板卡厂商下调价格。

毫无疑问的是，英伟达一边继续在显卡技术上做出大跨步式的创新，另一边由于自己的技术和市场领袖地位，确实在板卡合作方那边显得傲慢至极——不只是 EVGA 一家，其它厂商都有相同感受，只是没有像它这么坚决而已。

“雷神”车载超级计算机

大家应该知道，随着近十年来 GPU 技术驱动的深度学习突飞猛进，英伟达早已不再是纯粹的传统消费显卡厂商，也已成为了工业级 AI 加速计算方面的技术领导者。

在今天的 GTC 大会上，英伟发布了 DRIVE Thor，一台只靠单机架构，就能够运行自动驾驶+数字仪表盘/车机+车载信息娱乐一整套系统的车规超级计算机：

“雷神”超级计算机，可以说是英伟达三大 AI 加速计算架构技术之集大成：Grace CPU、Ada Lovelace 架构 GPU，以及 Hopper 多实例 GPU 架构。它的总体浮点运算性能高达2000万亿次 (TFlops)，比前不久刚刚实现商用的前代平台 DRIVE Orin ，算力实现了惊人的八倍提升。

这次升级的另一大亮点，在于英伟达首次在面向自动驾驶场景开发的车载计算机 DRIVE 平台中，增加了 Transformer（一种主流的深度学习模型）模型的支持。

Transformer 引擎在“雷神” GPU 单元的 H100 Tensor Core 中运行，依靠 FP8（8位浮点）精度，它能够直接在车载计算机上运行包括 Transformer 在内的更大规模的机器学习模型，从视频当中截取感知帧，极大提升了车载算力的性能，降低了对云端服务器和连通性的要求。

黄仁勋在 GTC 演讲中演示了一段视频，显示“雷神”可以只靠自己就运行一辆自动驾驶汽车完整的运行、感知、决策、避让等操作，以及环境实时扫描和数据搜集等任务。

“雷神”的另一个特性在于具备多域计算 (multi-domain computing) 能力，满足车规级硬件的要求。

在汽车行业，车机、自动/辅助驾驶系统对于稳定性安全性较高，而车载信息娱乐系统没有那么高。过去，这些不同类型和安全级别的功能需要数十个 ECU（可以理解为独立的小电脑）来控制。

而“雷神”可以在系统层面对不同任务进行多域隔离，使得诸如自动/辅助驾驶、车机仪表、安全气囊等关键进程能够不间断的进行。

一台“雷神”上可以同时运行 QNX（主要用于车规级系统和功能）、Linux 和 Android（更多用于信息娱乐等非关键系统）。

目前，包括小鹏 (Xpeng)、吉利极氪 (Zeekr)、轻舟 (Qcraft) 等在内的一些国内新能源/新造车品牌和自动驾驶技术开发者，已经和英伟达达成合作关系，对“雷神”进行早期测试。

英伟达估计“雷神”系统将在2024年进入量产，极氪 CEO 安聪慧透露将在2025年生产的下一代智能电动汽车当中采用该系统。

正如历年来英伟达的产品发布会和技术峰会一般，本届 GTC 也是发布种类繁多、信息量巨大且密集。

除了我们刚刚介绍的 RTX 40系列显卡和“雷神”车载超算之外，英伟达还推出了依赖最新 Ada Lovelace 架构 GPU 的云计算服务、边缘计算平台、工业园元宇宙开发环境 Omniverse Cloud、面向大语言/蛋白质折叠模型优化的加速计算工具和服务等，碍于篇幅限制，在此就不详述，感兴趣的朋友可以访问英伟达官网 newsroom 查看。

*注：封面图来自于英伟达，版权属于原作者。