英伟达自动驾驶掌门人详解“超越特斯拉和Waymo”的路线图
英伟达汽车业务负责人吴新宙每隔大约半年,就会在自家自动驾驶系统迭代到他“足够有信心”的节点时,把首席执行官黄仁勋请上车,进行一次实路测试。 最近一次,两人从加州伍德赛德驱车前往旧金山市中心,乘坐的是搭载 MB.Drive Assist Pro 免手驾驶辅助系统的奔驰 CLA,这套系统部分由英伟达参与设计,在形态上与特斯拉的“完全自动驾驶”(FSD)颇为接近。
虽然路上车流密集,但车内气氛轻松,黄仁勋甚至打趣地说,让他在系统进入自动驾驶模式后“才开始对安全少一点担心”。

英伟达随后向媒体提供了一段约 22 分钟的车载视频,画面中,这辆奔驰在施工路段、违停车辆、橙色路障锥桶夹出的窄道等日常城市复杂场景中穿行,系统表现相当平顺,不过视频经过剪辑,并非完整实录。 英伟达发言人事后强调,整个路程并未出现系统“接管失败”而需要人工干预的情况。 作者此前也曾在旧金山与英伟达高管同车体验类似系统,对其在红绿灯、四向路口、违停车辆、无保护左转,以及穿梭于行人、自行车与滑板车之间的能力印象深刻,认为在特斯拉已经用摄像头加芯片跑通一套方案的前提下,全球市值最高的芯片公司要做出同样甚至更好的系统并非难事。
在经历多年“幕后赋能”之后,英伟达开始主动将自己摆到自动驾驶产业舞台中央。 除了继续向特斯拉等车企供应车规级芯片,它还把自研的 AI 驾驶功能打包成平台,提供给奔驰、捷豹路虎、Lucid 等合作伙伴。 今年早些时候的 CES 上,黄仁勋发布了名为“Alpamayo”的自动驾驶开发组合,涵盖 AI 模型、仿真蓝本和数据集,旨在让车辆在特定条件下实现 L4 级自动驾驶,他甚至将这一节点称为“物理世界 AI 的 ChatGPT 时刻”。
不过在车内与吴新宙对谈时,黄仁勋收敛了发布会上的张扬,更偏向冷静反思,但对技术前景仍然极为乐观。 他坦言,Alpamayo 的强大之处在于具备对环境进行推理的能力,但真正的难点在于“我们不知道它做不到什么”,因此仍需要与传统的“经典技术栈”深度结合。 在他看来,纯粹的端到端大模型很难从工程角度论证其安全性,而经典技术栈基于成熟的工程流程,更利于对具体行为进行安全验证,将两者结合,既能获得接近人类的驾驶风格,又能把行为约束在传统交通规则框架之内。 虽然业内其他自动驾驶玩家同样在端到端神经网络之外叠加显式安全规则,但端到端学习正在成为行业新潮流:Waymo 采用的是混合方案,特斯拉则几乎完全押注端到端网络。
吴新宙在采访中表示,端到端模型在应对减速带、变道等细腻场景时,能减少机械感和“机器人式”迟滞,更接近真人驾驶节奏,这也是他强调“ChatGPT 时刻”的原因。 “只有当你的车表现得足够自信,用户才会更愿意持续使用它。”他说。
与特斯拉相比,吴新宙将英伟达的差异点,更多放在传感器组合和系统架构上,而非在公开场合评论对手的安全争议。 特斯拉 FSD 至今累计路测里程已超过 85 亿英里,却也卷入多起严重安全事故,被监管部门点名与 23 起伤害事件及至少两起死亡事故有关。 一位英伟达高管去年曾透露,公司内部曾用自家系统与特斯拉 FSD 做对比测试,从司机接管次数来看,两者在不同场景下各有优势。
吴新宙强调,英伟达坚持采用“多源冗余”的传感器组合:在摄像头和毫米波雷达之外,还会布置超声波传感器,并在更高配置中加入激光雷达。 在他看来,各类传感器的冗余与多样性是补足极端边缘场景、提升整体安全冗余的关键。 当然,传感器越多,整套系统的硬件成本也就越高,特别是激光雷达,让人担心最高安全规格的方案只会出现在昂贵的豪华车上。 对此,吴新宙认为,依托英伟达“垂直整合”的方案以及传感器价格整体下行趋势,可以将安全性能压到“尽可能低”的成本区间。
他介绍,英伟达的 DRIVE Hyperion 平台自设计之初就支持多档配置:入门版本采用以摄像头和雷达为主的简化方案,这些器件经过十多年的大规模生产,成本已经显著下降,而超声波传感器本身就非常便宜。 针对更高等级自动驾驶,平台可以按需叠加激光雷达,随着这一类传感器价格持续走低,他认为在 4 万到 5 万美元价位区间的量产车型中,搭载完整传感器堆栈也并非不可想象。
面对 Waymo 近期在旧金山等地发生的安全事件——例如自动驾驶出租车在停电导致路口信号失灵时集体堵死路口——吴新宙表示,这类极端案例已经被英伟达搬进仿真环境中反复推演。 与特斯拉拥有庞大私家车车队、Waymo 已在公开道路上积累近 2 亿英里的完全自动驾驶里程不同,英伟达在真实路测数据上并不占优,因此更重视“合成数据”与高保真仿真的基础设施投入。

在仿真策略上,英伟达主要采用两种方法。 第一是“神经重建”(NuRec),工程师利用实车采集到的传感器数据,重建出逼真的三维道路场景,让系统在虚拟环境中重复经历某一次真实路况。 第二是“增强”,即在已重建的场景中不断修改变量,例如调节行人出现的时间、速度与位置,从而生成一系列仅有细微差异的新情境,用以观察系统在各种微变条件下的行为表现,这一过程在内部被形象地称为对数据集进行“模糊化”。 英伟达不仅从合作伙伴处获取行车记录仪视频,还会将像 Waymo 所遭遇的停电路口堵塞等公开事件场景复刻到仿真中,训练系统学会主动避免类似“集体卡死”的行为模式。
然而,在吴新宙的设想中,未来真正理想的自动驾驶系统,不应依赖无穷无尽的实车路测数据来覆盖所有边缘案例,而是要具备“推理”能力,从规则与有限经验中类比出应对策略。 为此,他的团队正在研发一个名为“视觉-语言-行动”(Vision Language Action)的新型模型,将视觉感知、语言理解与物理动作统一到同一架构内,借助已经在互联网级数据上训练出的基础大模型,来赋予车辆更强的理解和推理能力。 吴新宙把这比作人类学车:先读一本交通规则手册,再上路练习二十个小时,大多数新司机就已经能合格上路,随后再通过经验不断精进。 “我们的目标是让模型也能如此——未来只需要一本规则书和二十小时训练数据,它就能学会开车。”他说。
在特斯拉、Waymo 等先行者已经跑在前面的赛道上,英伟达试图通过“芯片 + 平台 + 模型 + 仿真”的整套组合拳,来缩短在里程和经验上的差距,并把自己从幕后“算力基建商”转变为自动驾驶技术路线与安全标准的重要制定者。 对黄仁勋和吴新宙而言,这场关于“物理世界 AI 的 ChatGPT 时刻”的豪赌,才刚刚驶出起点线。
踩一下[0]

站长云网
顶一下[0]