智驾网 | 2023-04-02 15:00 作者:智驾小编 0

科大讯飞刘俊峰:把车变成自己说,自己听,自闭环

语音交互
语音交互是座舱里面智能化非常重要的一环,而且它是可以通过智能化来去让更多现在新的年轻的用户实实在在感受到那些差异,而真正出现新的价值的。

3月31日,由中国电动汽车百人会主办,清华大学、中国汽车工程学会、中国汽车工业协会、中国汽车技术研究中心、中国汽车工程研究院共同协办的中国电动汽车百人会论坛(2023)在京开幕。


本届论坛为期三天,以“推进中国汽车产业现代化”为主题,共设有2场全体会议、9场开放专题论坛和4场闭门会议。论坛同期将举办丰富多彩的新车展示、产业链及核心零部件展示、以及多个重磅课题研究报告发布等全面贴近产业实践,促进跨界交流的互动活动。


在第三天的“智能汽车论坛”中,与会嘉宾主要讨论了芯片、操作系统、域控制器等智能汽车关键技术进展;智能汽车进入量产阶段的整车进展;车路云一体化进展及趋势;整车与零部件企业发张格局与创新路径;智能化阶段的产业链企业关系;构建智能汽车发展的新生态体系等议题。


在论坛现场,科大讯飞股份有限公司副总裁、智能汽车事业部总经理刘俊峰先生发表了相关演讲,以下内容为演讲全文,简单编辑,未经本人审阅。


尊敬的师秘书长,各位辛老朋友,在这个时候如果再喋喋不休,会被扔鸡蛋的。今天我演讲的题目是“以人工智能达到高品质的汽车听享空间”,因为你们讲智能驾驶讲得太多了,我们必须把围绕人的体验这一环再拓展一步,再畅想一下,争取不枉费下面那么好的大武器。

    

首先科大讯飞在2018-2022年我们拿了非常多的全球的顶尖赛事的人工智能比赛的冠军。我们一直秉承“技术创新引领场景革命”。所以,不断地来探索围绕着在交互、体验、新场景这样一些链条里面的这种新产品和新服务。智能汽车事业部我们也是围绕着智能交互、座舱、驾驶、服务来展开我们所有对于行业的发展的路径。

   

今天重点讲一下汽车的声音链。也是在上个礼拜的时候,我们参加中国音响电子协会的年会,我们第一次拿到了一个叫创新领军企业的这样一个大奖,因为汽车的整个声音链是当前的这个情况下比较乱的,大家在坐车的时候对于这一点虽然提到,很关注,很重要,但是现实情况是非常乱的。声音对于每个人的体验都是很关键,因为我们除了吃之外,对于眼睛和耳朵,为它们花的钱着实不少,尤其是耳朵。我们有开会的耳机,有听音乐的耳机,然后游泳的时候还要买一个防水的耳机,家里面的电视,这个音响要求好了,有的时候还会买几十万的音箱伺候它。所以,在这样一个链路上,就会把人的耳朵养坏,养坏之后它就变得不好伺候了。所以,在车上有很多人因为声音的体验不好,所有大家已经不拿汽车这个场景来听歌了,你们周边肯定会有一些比较挑的人,他们会觉得在车上听歌不如在家里面听好,不如拿耳机听好,所以就花了很多的钱去改了那套音响。但是,这样一个改法也不一定真的达到一个好效果和对的体验。已经在后改的这个市场,这些用户有10%左右是来改音响。

    

我们围绕智能汽车向前发展的路径上,其实也要思考一下,如果智能汽车从驾驶层面,从它的算力层面,从它的连接层面都已经到了一个还不错的情况,在车内的声音体验应该是什么样子?我想可能有这么几点是不可忽视的。

    

其一,他还是要听得好,听得舒服。

    

第二,围绕车内多场景和多交互的需要,他应该在每一个场景的投放下都会恰如其分的好好表现。

    

第三,他应该还是有一套跟OTA,跟FOTA、SOTA一起的一套声级链条,就是它的声音不应该越听越差,而应该围绕这样一个车和你的喜好越听越好。

    

展开只为他听音乐,听个声音,获取信息这样的一个链条之外,还有非常多的场景值得探索,比方说,导航场景,在担任驾车的时候那个导航和多人在舱内的那个导航,那个声音其实应该一样的。因为导航音只需要A座那个驾驶位听到就好了,它为什么以干扰到后面的排座呢?如果车内多几个人,我们要想聊天,背景的音乐声可以小一点吗?如果是自动驾驶,API这个场景下,我们要让这个车自己到库里去,他用到周边的行人,可以跟周边的行人say  hello吗?其实这些都是围绕声音的场景展开,有非常多要去解决的体验点的问题。 

    

我们从去年,经过三年多的研发、研究,我们从2021年11月18号广州车展发布了科大讯飞的智能汽车音频管理系统,我们就是希望来去用我们的专长来重新构建汽车的声音链条。这里面其实讲起来一个原则很简单,就是把车变成自己说,自己听,自闭环。从解决前端听的语音交互的问题,到后面解决说,说出来的声音品质,音响品质更好的问题。所以,这样一个链条我们希望在每个车上,都可以让这样的车像人一样能听会说。

    

这里面首先要业绩非常多核心原来音频的公放的调音的相关的算法,这些算法是个机理,没有这些机理做保证,上面所有的想法基本上都是空谈,just  so  so。再有一定是围绕着我们构想的所有用车的体验的场景,把这个链条拉开,从交互上到听感的获音上,以及到我们跟内容结合一些新的服务上。比方说,如果我们想要做一个K歌房,在汽车上,很多电车高功率,我们想做一个K歌房,这个时候拿起麦克风想唱几句,突然发现那个声音不对,就是它那个场景没有考虑到KTV这个场景需要一个大空间,30平米,甚至100平米那样一个大空间才可以唱得舒服。如果更多的被顶棚,被NVH这样一些噪音干扰,你尽管加入了一个KTV的APP,或者已经有手持麦克了,但是仍然唱起来觉得不舒服。这个其实就是围绕着在调音,在声学表现这个链条里我们要做的事情,还有类似的会议室、电话、电影院,我们如果拿到一个7.1.4的片源,你想在一个车里面听一个好的演唱会和一个大片,这个时候如果没有基础设施的保证,它是没有那个感觉的。所以,这些都是要去处理的,从交互到声音的整个链条。

    

刚才已经举了简单的例子,我们再举一个打电话的场景,其实这些后面都是一些小场景。电话来了主座先接,但是他是找后面的我们家儿子的,那这个电话我怎么给他移过去,他其实只要跟交互把声音这样一个链条拉开,就有非常多的处理上说,我接电话,把它拖拽到后排,我这块不用响了,我听的还是导航的声音,后排打电话也没干扰到我导航的声音。这样的一个声音的切分就会让车内的场景有非常多的可能性。前排在导航,旁边在电话,后面在听音乐,最后一排可能孩子们在玩游戏。通过声音的区分,我们就把车内整个交互的场景变得多维了,变成更多维了。

    

再举个例子,车内开起来高速的时候声音其实是非常吵的,轮噪、风噪影响到我们说话必须要吼。如果到多模态到声学链条的解决,我们可以让最后一排两个人轻声说话,那人的体验就会更好一点。再结合DMS/OMS常用的那些摄像头,我们把调音这个事情可以更进一步,更智能化一步。有的时候会找着那个“皇帝位”,每一个车的设置都会考虑不同的驾驶者的身高,他要去调面向耳朵的那个声音朝向到底是怎么样去定位。但是,我们有摄像头,我们把多模态的交互和摄像头通过对于驾驶者的判断,这个位置是可以能够灵活自己来变化的。这样一种方式就可以真正因为驾驶者而不同,这个声学的整个聚焦点就可以随车移动,随人而变化。

    

再打开,如果车内后排有人睡觉了,在这个过程之中,我们是不是要让后排那个声音小一点,但是我还要导航,我也要听几首歌,这个时候就是音区加上多模态的感知形成了一些差异。

    

为了把这个事情做和,也为了规避掉所有“卡脖子”的那些限制,我们自己其实重新又构建了很多算法,比方说,环绕的算法,比方说虚拟现场的算法,这样都保证链路上面我们自己可以完全可控。

    

再有一些跟导航的结合,我们也跟很多导航厂商,包括我们基于BL开发上面的导航软件,要去考虑到跟声学相关的这样一些场景该怎么表现,你提“前方请右拐”的时候,那个声音是不是要靠右一点?“前方请调头”的时候,那个声音是不是要一直随着那个转向,要结束掉整个转的那个过程,包括我们在做很多在L2++,L3以后,车在路上跑,旁边有一些你需要规避的像消防车、急救车,以及包括可能很多危险车辆,在这个过程之中过来了,你要不要从他那方响起来相应的声音,这个时候其实都是要去讨论,跟生态内容,跟应用如何来去做深度的结合的。我们也跟很多的生态合作伙伴去来讨论怎么样基于他们想要的声音表现去构建整个汽车的声音链。这个东西其实还是比较传统的,首先它是一个公放的样子,但是我们把全球现在最新的ADSP用到了极致。当然,现在也有很多因为涉及到中美之间的芯片竞争,我们还要积极走国产化路线。现在我们新的国产化的平台从国产芯片的替代的比例已经接近了75%。这个链条说到底还是汽车的工程的链条里面的一部分。所以,没有汽车的完整,工程链条的支撑,其实在这个事情上只能说是差强人意,只有算法是不可能的,它要完整的经过整个汽车的工程验证,然后软硬件的协同。

    

在过往的三年里面,我们做的这样一个事情也确确实实是让很多的车企,包括很多的业内的同仁感觉到比较诧异,说我们本来做语音交互,现在怎么打开做这个事情?但是,好像做对了。因为从中国很多汽车的品牌寄予的那个期望上,他们总觉得在那个喇叭上,那几个英文字母很贵,会让他们的车卖得很贵,这个还是个品牌自信的问题,或者我们没有其他的东西可以说的问题。当我们把这个事情拉开之后,我认为它是座舱里面智能化非常重要的一环,而且它是可以通过智能化来去让更多现在新的年轻的用户实实在在感受到那些差异,而真正出现新的价值的。所以,这场仗我觉得我非常有信心再把它打下去。因为基于整个座舱的体验链条,声音的重要性大家都能够意识到,它不是因为几个字母而带来的,它是真正用体验价值来去产生的这种溢价的。

    

所以,我们在下半年也会再发一个拳头级的产品,把整车公放的功率提升到2800瓦,通道数到24个,我们可以推动喇叭,甚至可以到30多个,接近40个,这样的一种基础硬件的布置会让整个车从内到外有非常多跟声音相关的体验就应运而生了。我们非常愿意把这个事情跟大家一起讨论。

    

这20年我们从语音交互,到多模态交互,到智能座舱,到智能服务,现在到公放,到驾驶,我们也是跟很多车企形成了非常好的合作关系。我们希望下一次面对着整个汽车智能化新的浪潮的来临的时候,我们从声音的这个链条配合这个新生代,我们一起携手共创声音的新生态,谢谢大家!


智驾注:本文转载来源为智驾网,由AutoR智驾转载。
收藏 0 分享:
相关文章
关于智驾 关于投稿 商务合作