理想汽车勾晓菲:大模型趋势下会诞生全新的车载应用生态模式

12月20日,由北京大学光华管理学院、腾讯云联合主办的“AI驱动汽车新智能”出行产业沙龙在北京大学召开,在沙龙上,理想汽车智能空间副总裁勾晓菲发表了题为“基于AI的人机交互”的演讲,分享了面向汽车新智能时代背景下,AI赋能智能汽车的思考和举措。

勾晓菲认为,大模型的出现让智能汽车对语言的理解能力迈上了一个新的高度。语音控制这种交互形式,有机会从“可用”变成“好用”,未来汽车的主交互形态,将从现在的以触控为主,对话为辅的方式,逐步向以对话为主,触控为辅的方式去过渡。未来一定会出现全新的应用生态的模式,在开放式对话交互的能力下,所有的应用会变成一个个的虚拟助手,它既是一个标准的产品专家,又是一个售后的服务专家,所有用车相关的问题,都能解决。以后在数字世界里,会形成数字网络,通过这种全新的接口形式,把各家的能力联通起来,一起去迈向全新的基于对话式的、基于AI的生态模式。

以下为演讲原文:

我今天分享的话题是基于AI的人机交互,其实不管是过去的计算机也好,还是现在的手机也好,还是现在的智能汽车也好,它们都是一个智能终端,智能终端给人提供服务、给人提供相应的功能,最底层的逻辑就是人机交互。

我们看一下过去人机交互的进化史。其实汽车和整个消费类电子,进化史是高度匹配的,比如最开始是基于Windows的鼠标键盘+界面,有了显示屏,可以显示一些图形界面,配合着一些按钮、滚轮,相当于模拟鼠标键盘的输入。有了触控屏之后,现在汽车上有了触控技术,主流汽车都是基于触控做主交互。

这些交互到底是不是适合汽车这个终端?我觉得这是理想汽车一直在探索的一个问题,首先答案肯定是不适合。为什么?发展到现在的触控技术,会有几个问题,一是过去的终端是一对一的做交互,一个人用一个终端,汽车是一对多的服务,因为汽车里坐着很多人,每个人都需要服务。二是,汽车是一个空间,是一个三维的空间,手机也好,电脑也好,是二维的平面设备,它的交互体系也会不一样,今天的汽车主要交互形式是基于触控,触控的交互会有一个非常大的限制——距离的限制,在汽车这个空间里,我们可以想象到后排乘客是没办法通过触控和这台车做交互的,另外驾驶员在开车的过程中,触控是需要手眼配合的,驾驶员在开车的时候,他的精力都在路面上,很难和屏幕完成手眼配合的交互。

我们整个行业很多年前都一直在提最适合汽车的应该是对话式的交互,应该是语言,其实这么多年来,语言在汽车上一直都是一个辅助的交互形式,我们可以简单地称之为今天的汽车是以触控为主、以对话为辅,语言发展不起来最主要的一个点是因为之前的AI也好,或者是之前的这些算法的能力也好,它对整个语义的理解不到位。

过去更多的是命令式的、规则式的,它没办法理解语言里面很复杂的逻辑。今天大模型的出现,让语言的理解能力迈上了一个新的高度。

在这个行业里有很多喜爱我们的朋友怎么评价我们呢?理想汽车只会做冰箱、彩电、大沙发。

跟大家简单讲一下,我们有很多屏,但我们之所以在座舱里设计很多屏,是因为今天的空间交互需要更多的屏幕。比如说当车里只有一个屏的时候,驾驶员启动导航的时候,后排的所有乘客就用不了屏幕了。我们的环绕式的音箱在布局上了非常多扬声器,也不是为了追求上扬声器的数量,是因为今天我要在空间里去还原有向位感的声音,所以我需要一个环绕的扬声器布局。举个例子,比如说当后排乘客说理想同学的时候,那个声音其实应该被叫到后排,这个时候理想同学在后排和用户进行对话。当驾驶员在导航的时候,导航的声音应该出现在驾驶员的耳边,而不是告诉乘客开怎么开、往哪个方向转。需要这种具备向位还原能力的空间音箱的布局,才能实现空间声音上的交互。同时我们有很多麦克风,麦克风阵列也是为了更好的做声源定位,识别座舱里的每一个乘客说的不一样的话,包含我们舱内摄像头也是为了识别舱内乘客的肢体语言,人和人沟通,除了说话,还有非常多表情和肢体语言,它能够让这台车更好的理解人类的语言。

说了这么多,如果我们未来想要实现把整个交互框架从触控为主、交互为辅的方式,往对话为主的方式转移,现在存在什么核心待解决的问题呢?我觉得这是行业问题。我主要说两个点:

第一个点,今天所有的语音、所有的对话是开放式的,大模型上车之后,所有的对话都是开放式的,其实开放式的对话,今天在车上配合的所有UI界面是预定义好的。今天我们用电脑也好,用手机也好,我们看到的每一个菜单、每一个界面,其实都是产品经理和设计师预先给你设计好的,但其实语言是开放的。我们在产品经理这个圈子里经常会听到他们提到的一个词——高频刚需,我们要做那种高频刚需的应用。但其实对于个体来说没有高频和低频之分,举个例子,比如说我今天刚买了一台车,上车之后想调后视镜,如果在座的各位有特斯拉的车主,可能在刚买特斯拉的时候,不知道后视镜该怎么调,因为它在屏幕的界面上,需要配合方向盘的滚轮调后视镜。当你接触一个新的产品的时候,哪怕你用这个产品一辈子只用一次,但是在你用的那一次,它也是非常刚需的,只要你找不到,就不知道该怎么调。产品经理根据所谓的高频刚需的原则,设计了看似高效的UI界面,但如果回归到人类个体的时候,就算这个UI代表的是大众,但用户个体可能是那个小众。当人用语言去做交互的时候,其实他的目的性是非常明确的。举个例子,当我说我想调屏幕亮度的时候,如果今天我配合的是一个触控的界面,其实调出来的可能是显示屏设置,它除了屏幕亮度以外,还有屏幕开关、屏幕刷新率等一系列信息,但我的语言表达非常明确,就是给我调亮度,我希望我说什么给我什么,而不是找一个近似的界面抛给我。下一个阶段整个行业要面临的很大变革和挑战,未来对话式的交互、开放式的输入,一定需要搭配一个开放式的输出,也就是说所有的UI都会变成生成式的,所有的UI界面的布局都会根据你的语言逻辑自动生成一个UI给你,而这个UI是高度匹配你说的这句话的语义的,我觉得这是行业面临的第一大挑战。

第二大挑战,未来在大模型的加持下,在对话交互的情况下,所有的应用都会改变。假设我是一个第三方应用的公司或者创业者,我打造这个应用的前提是我有什么能力就做什么样的应用,其实应用都是根据我的能力孵化出来的。我们现在在用所有应用的时候,每一个应用都是很割裂的。举个例子,今天是我和我妻子的结婚纪念日,我想去望京吃日料,会打开小红书或美团,搜索一下望京附近有什么好吃的日料,然后打开腾讯地图导航过去,我出行的诉求就会被切割成两个应用。但如果通过对话的交互,用户一定是一个完整的逻辑。我们大胆的猜测,未来的应用形态可能会变成一个个的虚拟助手,包含我们这一次OTA 5.0释放了三个助手和一个老师,什么助手?用车助手、出行助手、娱乐助手,包含美食、旅游、景点介绍、订票等能力都会融合到出行助手里,以后你再有和出行相关的一切事儿,直接唤起理想同学,使用它出行助手的能力就可以了。比如说用车助手,智能客服就是用车助手的一个缩影,你只要和用车相关的所有问题直接找它,它都能给你回答,它又是一个标准的产品专家,又是一个售后的服务专家,所有用车相关的问题,它都能给你解决。娱乐助手也是一样的,它可能包含长视频、短视频、音频、音乐、有声读物,所有东西都可以和这个助手做交互。未来可能整个应用生态会慢慢往这个方向上去迁移。

最后,表达一下理想汽车的心愿,未来一定会出现全新的应用生态的模式,我们也希望现在的生态合作伙伴们,能够更好地支撑我们,更好地支持我们,我们一起去迈向全新的基于对话式的、基于AI的生态模式。

谢谢大家!