智能座舱最理想的交互模式应该是什么样的？目前己经发展到了哪个阶段？

这是一个非常值得深入探讨的问题，这里分享一下自己的一些思考，期待和大家深入交流学习。为了节约大家的时间，先说结论，然后再展开分析。

引言

智能汽车是机器人的第一形态，对应的，智能座舱也引领了机器人时代人机交互发展的新方向。历史上，每一次交互方式的改变，都重塑了智能设备的产业格局。正如DOS转向Windows时代带来的产业巨变一样，人机自然交互打开了一道通向新产业的大门。

人机自然交互将改变我们对待智能汽车、泛机器人和人工智能的态度。人类最重要的发明是创造了语言体系，用于人与人的交互，带来人类文明；今天，人机自然交互可能是下一个基石性发明，其与机器的自主决策强结合，将带来机器文明，重塑人与机器的关系，对我们的社会工作方式及生活方式等方面产生深远的影响。

关键结论

1. 未来最重要的人机交互趋势是机器从被动响应走向主动交互，从人适应机器到机器不断地适应人。

2. 人机交互的终极目标是让机器拟人化，图灵测试是衡量标准。

3. 为了确保可靠性、实时性和隐私保护，座舱人机交互的计算必须依赖边缘计算，而不是云计算来实现。

4. 人机共驾阶段，人机交互能力必须跟自动驾驶能力相匹配，否则会带来严重的安全问题。智能驾驶和智能座舱的跨域融合是发展方向。

5. 未来，实体屏幕和触控将不再是座舱交互的中心，取而代之的是自然交互+AR-HUD。

6. 语音、手势和眼球跟踪是自然交互的三板斧，传感器、算力和算法是物质基础。

7. 当前的座舱以娱乐域为主导，但未来座舱内娱乐域和安全域(人机交互和自动驾驶)的定位会调过来，安全域会成为主控制域。

8. 自然交互方式是隐形的、简约的、更加情感化的交互方式，情感连接是人机交互的最高境界。

9. 每一次交互方式的改变，都重塑了智能设备的产业格局，智能座舱人机交互是中国智能汽车公司品牌向上的重要突破口。

人机自然交互可能是下一个基石性发明，与机器自主智能强结合，将带来机器文明，重塑人与机器的关系。

人与机器的交互方式发展趋势是什么？

座舱的人机交互未来将走向何方？这个问题的答案，可能需要从智能设备的发展历史中去寻找。

计算机行业是人机交互技术发展的起源。实际上，人机交互一开始不叫HMI，而是HCI，即Human–Computer Interaction。1959年，美国学者B. Shackel发表了历史上第一篇人机交互论文，从减轻使用者操作计算机产生的疲劳问题出发，提出了关于计算机控制台设计的人机工程学理论。

PC的发展史广为人知，下图是一个简单的发展阶段划分：

最开始是DOS系统加上键盘，命令行界面的操作需要非常高的专业技能，结果是只有少数专业人员才能使用。鼠标与Windows操作系统的出现改变了一切，让PC的使用者成爆炸性增长，并开辟了游戏、设计等诸多大型产业。随着智能手机的发展，触控成为更简单直接的操作方式，出现了Surface这样的平板电脑。而微软小娜则代表了最新的交互方式，我们可以用语音这种更加自然的方式与机器交互。

PC和手机的发展史折射出机器与人交互方式的发展脉络，那就是从复杂走向简单；从抽象操作走向自然交互。未来最重要的人机交互趋势是机器从被动响应走向主动交互。

顺着这样一个趋势的延长线去看，人机交互的终极目标，就是让机器拟人化，使人与机器的交互方式就像人与人的沟通交流一样自然顺畅。

可以说：人机交互的发展历史，是从人适应机器到机器不断地适应人的发展史。为什么会是这样的一个发展趋势？因为人的天性就是懒惰的，不情愿去主动学习复杂的工具。因此，人机交互的门槛越低，机器的使用者的范围就越广，于是产业规模就越大，商业回报就越高，从而驱动商业和技术创造朝着这个方向走。

智能座舱的发展也经历了类似的过程：

多模交互是下一代人机交互方式的理想模型，什么是多模交互？简单说，就是利用手势、眼球跟踪、语音等方式来进行交互。这里的模态简单讲就类似于人的“感官”，多模态即是将多种感官进行融合，对应人视觉、听觉、触觉、嗅觉、味觉五种感官。所对应的信息媒介包括语音、视频、文字以及各种传感器如红外、压力、雷达等。

但多模交互的命名太过技术化，我更愿意将其称之为：自然交互。

例如手势，可以说是原生的“鼠标”，不同的手势能够表达丰富的语义。

自然交互实现方式是什么？

自然交互如何实现？下图做了一个直观的展示：

通过强大的AI算力对语音、视觉和交互行为等数据进行计算，得出感知结果，结合驾驶工况的时空信息，综合做出决策。

智能汽车本质上是载人机器人，机器人最重要的两项能力是自主决策能力和人机交互能力，缺乏其中任何一项，就无法有效地为人类服务。因此打造智能的人机交互能力是其必选项。

如何衡量人机交互的智能化程度呢？我的一个思考是使用图灵测试，即机器能否在交互行为的表现上和人无法区分。

如何实现自然交互呢？传感器、算力和算法缺一不可。

座舱内会融合越来越多的传感器，传感器在形态多样化、数据丰富性和精准性能力上不断提升。产生的结果，一方面会使座舱内算力需求不断飙升，座舱里的AI算力需求将上升到30 TOPS以上，甚至百TOPS级别的水平。另一方面也提供了更好的感知能力支撑。这种趋势让更丰富的座舱场景创新、更好的交互体验成为可能。

其中，视觉处理是座舱人机交互技术的关键。心理学相关研究表明，人与人的交互中，来自于视觉的信息占比高达83%。

但融合才是王道，例如在嘈杂的环境中的语音识别，单用麦克风其实是不够的，这就是著名的”鸡尾酒会”问题，我们人之所以能够在此情况下选择性聆听某个人说话，靠的不仅是耳朵，还有眼睛。所以，通过视觉去定位声源，并且读唇语，可以获得远优于单纯语音识别的效果。

如果说传感器相当于人的五官，那么算力是自然交互的大脑，AI计算能够将视觉与语音融合，使用多种感知模式，实现人脸、表情、手势、语音等多信息的识别。从而实现更加智能的人机交互，包括眼球跟踪、语音识别、唇语识别联动与驾驶员疲劳状态检测等。

更重要的是，座舱人机交互的计算必须依赖边缘计算，而不是云计算来实现。因为三点：可靠性、实时性和隐私保护。

云计算依赖联网，对于智能汽车来说，如果依靠无线网络，其连接的可靠性是无法保证的；同时，数据传输的延迟不可控，交互的流畅度无法保证。要确保面向自动驾驶安全域的完整用户体验，破局之道就在于边缘计算。

个人隐私保护可能是我们这一代人在AI时代面临的最大挑战之一，座舱内的私密空间，隐私保护问题更加突出。今天的语音识别，绝大部分仍然是在云端进行的，其中的声纹等生物信息可以轻易暴露个人身份。

2021年7月，网信办审议通过了《汽车数据安全管理若干规定（试行）》，自2021年10月1日起施行。明确指出包括音频、视频、图像和生物识别特征等在内的个人信息需要受到严格保护。确立了几个关键原则，包括：车内处理原则——除非确有必要不向车外提供，脱敏处理原则——尽可能进行匿名化、去标识化等处理。

通过在车端进行边缘AI计算，可以将视频、语音等个人生物信息去除，转化为语义信息，再上传到云端，可以有效保护车内个人数据隐私。

自动驾驶时代，交互智能必须跟驾驶智能相匹配

在可以预见的未来，人机共驾都会是长期存在的状态，座舱内的人机交互是人了解自动驾驶能力的第一界面。

当前智能汽车技术存在进化不均衡的挑战，人机交互能力落后于自动驾驶能力的发展，导致自动驾驶事故频发，影响了自动驾驶的普及。

人机共驾的特点是人在驾驶回路中（Human In the Loop），因此，人机交互能力必须跟自动驾驶能力相匹配，否则带来严重的预期功能安全问题，几乎所有的自动驾驶致命事故都与此有关。

预期功能安全的准确定义比较复杂，简单说，就是机器本身没有出毛病，但是人员误用导致出现了危害和风险。比如本来是L2级别的辅助驾驶，结果司级却在使用途中自己玩游戏去了，导致系统在遇到无法处理的驾驶情况时出现事故。

例如，自动驾驶系统在实际驾驶工况中，经常出现“鬼刹车”的情况。如果人机交互界面能够显示自动驾驶的感知结果，司机就可能会明白系统误判是由于把路上的一个易拉罐识别成了一辆车导致的，这样他就不会产生恐慌感，并且进一步了解到自动驾驶系统的能力边界，这将大大有利于提升L2+级别自动驾驶功能的接受度。

为什么特斯拉把越来越多的自动驾驶感知结果展示出来，为什么百度要把自动驾驶用的高精地图显示出来，背后的出发点都是这一原因。随着自动驾驶的能力越来越强，用户将越来越关注自动驾驶系统在虚拟3D环境中呈现的过程和状态，人机交互将愈加重要。

即使不发生事故，对自动驾驶状态的不了解也会让人产生严重的恐慌和焦虑。车不是简单冷漠地前行，而是体现人性化的共驾，比如检测用户疲劳，接管驾驶；语音控制车辆行驶状态，确认是否超车等等。机器负责主动关怀与推荐，人负责决策，这是一个比较舒适的驾驶交互方式。

人机交互与自动驾驶相辅相成，其具体作用如下图所示：

例如，未来更为人性化的泊车应该是人车共泊的，包括人对车的接管和车对人的接管，比如车遇到困难路况，可能会说我不太有把握，请求接管。再比如人迟迟停不进去，AI算法推荐是否开启自动泊车。人甚至还可以通过语音在泊车的过程中控制泊车的启停。

这种舱泊一体的方案能提升智能座舱交互和泊车的整体体验，还能大幅节省硬件成本：通过分时复用AI芯片的资源，可以同时满足座舱感知（语音+视觉）与APA泊车（视觉+雷达）的需求。从而为行业提供高性价比方案，可让智能化下探到更多中低端车型，在国内，地平线和映驰科技合作，正在推进这一方案开发。

当前，智能座舱的交互方式主要还是手机安卓生态的延申，虽然屏幕大得多，但核心功能还是娱乐导航。但我有一个判断，未来，实体屏幕和触控将不再是座舱交互的中心，取而代之的是自然交互+AR-HUD，下面我们做进一步分析。

第一个原因：面向自动驾驶的人机交互属于温饱问题，是刚需，属于安全域，有最高优先级；面向音乐、游戏和舒适性的人机交互是小康需求，属于娱乐域，在实现了前一阶段任务后才能有足够的施展空间。一旦智能驾驶发展到L4及以上，人将从枯燥疲劳的驾驶中解放出来，汽车也将成为“人的第三生活空间”。

娱乐域主要是由实体屏幕来支撑。今天座舱搭载的屏幕越变越大，甚至达到60寸，这实际上是用低优先级的功能占据了高优先级功能的空间，还带来额外的信息干扰，容易让人分心，影响驾驶安全。当然，实体屏幕在未来依然会存在，但它就好像客厅的电视一样，将不再是人机交互的核心载体。

下图对两个域的功能做了简要的分析总结。

因此，未来座舱内娱乐域和安全域(人机交互和自动驾驶)的定位会调过来，安全域会成为主控制域。自动驾驶是机器和环境的交互，人机交互是人与机器的交互，两者合二为一，完成人、车、环境三者协同，形成完整的驾驶闭环。

举个例子，由于人类听觉处理无法并行，所以车内语音交互只能在驾驶任务和娱乐任务中二选一，而又因为驾驶任务有更高的优先级，所以面向驾驶的语音交互应该有更高的优先级。

第二个原因：自然交互方式+AR-HUD的交互界面更加安全，例如通过语音和手势交流，可以避免驾驶员视线偏移，从而提升驾驶安全。而座舱的大屏是无法做到这一点的，相比之下，AR-HUD可以做到在显示自动驾驶感知信息的同时避免了这个问题。

第三个原因：自然交互方式是隐形的、简约的、更加情感化的交互方式。它不会过多地占用车内宝贵的物理空间，但却可以做到随时陪伴在身边。这种体验可以给予驾驶员及乘客更多的信任感、安全感，并且让系统更懂司机和乘客。

综合以上分析，未来智能驾驶和智能座舱的跨域融合是较为确定的发展方向，最终诞生的就是车载中央计算平台。

当前发展阶段、前沿实践以及挑战

目前，座舱的语音识别基本已经普及，语音识别主流厂商主要使用端到端算法，在理想实验环境下语音识别准确率可高达98%以上。

DMS正在急速普及。自2018年起，已陆续有本土品牌开始配置车内摄像头。该设备首先具备监测驾驶员疲劳状态、驾驶员面部识别等基础功能，其次具备账号登录、车辆个性化配置等辅助功能，以及车内拍照、视频等娱乐功能。目前国外豪华品牌也已经开始配置DMS（凯迪拉克、宝马、奥迪等），车型配置内置摄像头的比例将不断快速增长，预测至2030年装备车内摄像头的车型占比将超过50%。

下一步将是语音+手势+眼球跟踪+AR-HUD交互界面的组合，这是对应于L3+级别自动驾驶的智能交互方式。业内领先的车企已经开始布局，如下图所示。

中国自主品牌在这一块的实践基本上跟国外领先品牌是并驾齐驱的，从迭代速度上看还要更快。2020年，长安推出UNI-T车型, 包含多项 AI 主动服务，比如：如果你正在接听电话，系统会自动降低多媒体音量；再比如，当车机中控屏处于熄屏状态时，注视屏幕一秒钟即可唤醒屏幕；还有智能语音拍照：通过语音指令，即刻开启拍照功能，若检测到有人闭眼还可主动提醒重拍。

UNI-T的智能座舱搭载了地平线征程2芯片以及 Halo智能交互解决方案，深度融合视觉、语音多种感知数据，该方案可通过语音、动作姿态、面部表情等指令交互为用户带来更加安全、智能的驾乘体验。

最近的百人会钓鱼台年会上，集度汽车CEO夏一平提出智能汽车3.0的产品理念，指出三个核心点：“自由移动、自然交流、自我成长”，其中“人车交互及语音语义的精准识别，让车与人能“自然交流”，理解用户情绪，实时响应用户需求”。这一理念我非常赞同。

理想中的自然交互目标是从用户体验出发，需求提供稳定、流畅、可预期的交互体验。但理想再丰满，也得从骨感的现实起步，当前挑战依旧众多。

例如，当前自然交互的误识别情况依然严峻，全工况、全天候的可靠性和准确率还不够。比如手势识别，基于视觉的手势识别率目前还偏低，需要研究各种算法来改善识别的精度和速度。也许你不经意间动一下手势，就会被误识别为一个命令动作，这只是无数种误识别情况之一，在移动状态下，光照、震动、遮挡等等都是巨大的工程挑战。因此，需要有各种技术手段综合加持来确保准确性，例如结合驾驶场景，采用多传感器融合验证方式、语音确认等方式，降低误识别率。

自然交互的流畅度也是亟待解决的问题，这需要更高性能的传感器、更强大的算力和高效算法来逐渐改善。而同时自然语言理解（NLP）和意图理解依然处于早期阶段，还需要算法理论创新。

任何一种颠覆性的技术趋势都需要长周期的进化才能趋于完善，也许我们需要的就是行动和耐心。

未来：座舱人机交互走向虚拟世界与情感连接

随着座舱内传感器的增加，人机交互服务的对象从以驾驶员为中心转向全车乘客服务是一个确定性的趋势，例如主动关怀，无麦K歌，视线随动短视频制作等等。这些转变对于增强消费者吸引力非常有效，尤其是在中国，副驾驶座上的人往往对车型选择有更大的决策权。

智能座舱打造了一个虚拟空间，人机自然交互将带来全新的沉浸式增强现实娱乐体验。最近有媒体报导，特斯拉开始生产配备AMD Ryzen处理器的Model 3和Model Y车型，如此强悍的配置，结合座舱强大的交互设备，完全可以打造一个车内的元宇宙，提供各种沉浸式的游戏。智能座舱可能是元宇宙的一个不错的载体。

人机自然交互也将带来情感连接，座舱成为人的伴侣，更智能的伙伴，学习车主行为、习惯和喜好，感知座舱内环境，结合车辆当前位置，在需要的时候主动提供信息和功能提示。

例如，蔚来的NOMI车载人工智能系统（估计是know me的谐音吧？），注重与车主的情感联结，车不再是一个冰冷的机器，而是有互动有关爱的好伙伴。一位蔚来车主曾经分享过一个故事：自己在失去了宠物猫之后，用Nomi来替代猫咪并与它交流，他说：“现在，每天都有小金金（猫的名字）的陪伴，似乎它换了一个纬度再继续陪伴着我们。也许NOMI的工程师们怎么也想不到NOMI有一天会被拿来干这个，但至少这句话在那一刻极大的安抚了我，把整个人从情绪的低谷拽了一把，我想，这应该就是人机交互的最高境界了吧。”

早在2013年，电影《她》就讲述了一个人与机器产生情感的故事：作家西奥多在结束了一段心碎的爱情长跑之后，爱上了电脑里的虚拟人物，这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音，并且风趣幽默、善解人意，让孤独的男主泥足深陷。

随着人工通用智能（AGI）的发展，在我们的有生之年，有机会看到人机情感连接逐渐渗透到我们的个人生活中，确保技术向善可能是那个时候我们要面临的另一个重大问题。但无论如何，技术都会往这个方向走。

总结

在当下激烈的行业竞争中，智能座舱已经成为整车厂实现功能差异化的关键一招，座舱人机交互与人的沟通习惯、语言文化等密切相关，因此必须是高度本地化的，智能座舱人机交互是中国智能汽车公司品牌向上的重要突破口，更是中国智能汽车技术引领全球技术潮流的突破口。

智能汽车是机器人的第一形态，对应的，智能座舱也引领了机器人时代人机交互发展的新方向。

历史上，每一次交互方式的改变，都重塑了智能设备的产业格局。正如DOS转向Windows时代带来的产业巨变一样，人机自然交互打开了一道通向新产业的大门。产业链将持续延伸，会有更多玩家进入到智能汽车这个大生态中，智能汽车玩家也会跨界进入更多的机器人领域，未来智能座舱生态圈发展主题将围绕“生态协同”与“跨界延伸”展开。

人机自然交互将改变我们对待智能汽车、泛机器人和人工智能的态度。人类最重要的发明是创造了语言体系，用于人与人的交互，带来人类文明；今天，人机自然交互可能是下一个基石性发明，其与机器的自主决策强结合，将带来机器文明，重塑人与机器的关系。这场科技革命将产生颠覆性影响，不仅将开启一个全新的产业生态，更对我们的社会工作方式及生活方式等方面产生深远的影响。

来源：知乎 www.zhihu.com

作者：李星宇

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 17 个回答，查看全部。
延伸阅读：
现在的智能家居方案，符合你的预期吗？你理想中的智能家是什么样的？

大家理想中的智能汽车钥匙是什么样的？