人物 2021中國汽車論壇

科大訊飛邢猛：面向智能座艙的多模感知技術(shù)及交互設計思考

第一電動王鳴幽 2021-06-21 21:36

2021年6月17日-19日，由中國汽車工業(yè)協(xié)會主辦的第11屆中國汽車論壇在上海嘉定舉辦。站在新五年起點上，本屆論壇以“新起點新戰(zhàn)略新格局——推動汽車產(chǎn)業(yè)高質(zhì)量發(fā)展”為主題，設置“1場閉門峰會+1個大會論壇+2個中外論壇+12個主題論壇”，全面集聚政府主管領導、全球汽車企業(yè)領袖、汽車行業(yè)精英，共商汽車強國大計，落實國家提出的“碳達峰、碳中和”戰(zhàn)略目標要求，助力構(gòu)建“雙循環(huán)”新發(fā)展格局。其中，在6月19日上午舉辦的主題論壇“智能座艙創(chuàng)新技術(shù)論壇”上，科大訊飛汽車事業(yè)部高級產(chǎn)品總監(jiān)邢猛發(fā)表了主題演講。以下內(nèi)容為現(xiàn)場演講實錄：

圖片 54.png

謝謝王教授，感謝王教授和論壇的邀請。如王教授很多，給我們科大訊飛合作機會，更是產(chǎn)學研深度的合作才能推動座艙進一步深度發(fā)展。

今天我分享的主題是“面向智能座艙的多模感知技術(shù)及交互設計思考”。

科大訊飛提得最多的就是語音，為什么今天不說語音呢？語音一定要說的，但未來語音到多模態(tài)一定是趨勢，科大訊飛進入語音行業(yè)還是比較早的，十多年了，從語音不可用、可用、不好用、好用，一直在做。應該怎么解決？從語音到多模態(tài)一定是未來的發(fā)展方式。

現(xiàn)在有很多人在說多模，多模是什么呢？是不是一堆傳感器堆在一起和用戶做交互？是也不是。

今天帶著自己的思考和大家交流。

一、語音。

怎么為用戶更好地服務，怎么占據(jù)用戶的時間，怎么在時間內(nèi)給用戶提供更好的服務是訴求。訴求在車內(nèi)會更痛，每天在車上待了將近兩個多小時，你會發(fā)現(xiàn)以前沒有機器、交互的時候在車內(nèi)是蠻枯燥的，有人陪你聊天蠻好的。智能網(wǎng)聯(lián)越來越發(fā)展，很多東西都已經(jīng)上車了，娛樂、導航、LBS、停車，現(xiàn)在感覺功能還不夠，還在逐漸堆功能。

這么多功能上車，對用戶來說到底是幸福還是負擔？這是我們深深思考的話題，做了這么多功能，從語音、服務，給用戶提供的功能他喜不喜歡？這是我們思考的問題。

怎么給用戶提供更好的交互方式？讓他們用起來更舒服。用戶接觸交互，信息輸入83%來自于視覺，11%來自于聽覺。但信息輸出第一步肯定是靠語音、語調(diào)。

但在車里，車里天然曲線性和受限性，把視覺和聽覺的平衡型打破了，在車內(nèi)很難全靠視覺來做，所以語音非常重要。

今天很多嘉賓分享的語音痛點問題我們深有感觸，所以總結(jié)出了語音交互的痛點問題，這也是對這些問題深入思考逐步解決的事情。

這么多年，行業(yè)、科大訊飛圍繞為了用戶提供更好的語音交互持續(xù)做。但真正想把語音交互閉環(huán)做下來，讓用戶在語音交互閉環(huán)下用的更爽更流暢。行業(yè)內(nèi)很多客戶想切斷鏈條，切斷后加入更多優(yōu)勢因素，都沒問題，就看怎么切入、怎么融合，把更多的好資源融合在一起。

技術(shù)是解決問題的基礎，是必要要素，但有了技術(shù)不一定全部解決用戶的問題，用戶要的是交互、體驗、服務，怎么把交互做好也是我們思考的問題，特別在車內(nèi)。

車內(nèi)首當其沖的是安全，所有的技術(shù)和交互是滿足一定目的，但是對車內(nèi)環(huán)境首先要保證安全，還有很多，像簡單、智能、人性等等。

舉個小小的例子，在車內(nèi)語音交互，以前是按鍵、語音喚醒。

比如說“飛魚”是科大訊飛的交互產(chǎn)品品牌名，我們和飛魚說：飛魚，你好，我想去喜來登酒店。”一堆一大還是能幫助你完成，但是足夠簡單嗎？足夠自然嗎？隨著用戶的使用不一定，怎么解決問題？一句話解決“你好飛魚，我想去哪”。這在行業(yè)里叫做One-shot。

但用戶發(fā)現(xiàn)在這件事情上還需要花很長時間，我的目的就是去喜來登酒店，可不可以有快速表達的方式？喜來登酒店。用戶說完之后，馬上可以反應的解決方案，像行業(yè)里的可見即可說。

但用這種問題解決方式是不是更好？能不能把語音的優(yōu)勢發(fā)揮出來？不一定，語音交互最大的優(yōu)勢是穿透力，所說的“穿透力”是有三個用途用一句話來表達，用一句語音把穿透力打穿是最大優(yōu)勢。

可見即可說在某些場景下能解決問題，但并不能把語音的最大優(yōu)勢發(fā)揮出來，看、點、說都是一步，并沒有把語音本質(zhì)的問題發(fā)揮到最大。該怎么做？有很多跨場景的免喚醒，場景完全是穿透式跨場景的，上句說“喜來登酒店”，下句話說的是“來首忘情水”。可以看到，語音交互把簡單、自然發(fā)揮到極致。

說一下智能和人性化，對智能化產(chǎn)品認知不足的人認為智能化是你能跟我說話就很厲害，但如果對智能化認知很足的用戶就知道智能化遠遠不止這些。

舉一個小小例子，我兒子叫邢子睿，有一次我玩用戶定義，我問邢總是誰，我給我兒子演示，他會說這個很智能，既然你知道我的名字你也知道我的信息，他高興得不得了。

把智能化、個性化釋放給用戶定義，讓他定義自己的智能化，也許他能找到自己的感覺出來。能不能讓用戶參與智能化、人性化的設計？在產(chǎn)品上在按照這樣的方式做，讓他定義對話，定義他認為好聽的模式、形式等。

二、多模。

從語音到多模一定是趨勢，不可能依靠語音解決所有問題，也不能解決所有問題。以人-車-廠為驅(qū)動的多模應該怎么做？

汽車是非常復雜的工業(yè)集成品，在車內(nèi)是集多種非常先進的傳感技術(shù)于一體，有麥克風、攝像頭、雷達，現(xiàn)在很多玻璃也有智能化了，以及音響，車內(nèi)的智能設備非常多。車是人工智能最好的舞臺。

車的屬性慢慢發(fā)生了變化，車不僅僅是車，傳統(tǒng)的數(shù)據(jù)車都是有的，車的數(shù)據(jù)沒變，但隨著智能化需求發(fā)展后會對人的需求有進一步的釋放。我在車里有更多的訴求，我要辦公，我要娛樂。對人數(shù)據(jù)的采集一定是未來越來越重要，會有場，場接觸的空間也會多。人、車、廠的數(shù)據(jù)是大平臺，采集了很多數(shù)據(jù)，是移動空間。

有這種思考以后多模感知的融合一定不是單模的，多模高感知技術(shù)融合。其次多維數(shù)據(jù)更好地協(xié)同，目的是把用戶體驗、交互體驗提升。

這么多傳感器、數(shù)據(jù)加在一起，對客戶來講價值是什么？智能化是一個，但對客戶品牌的價值提升，更多商業(yè)模式的探索有沒有更好的途徑？一定是有的。

大家認為蘋果手機是賣手機的嗎？也許是，也許不是。

大場景架構(gòu)要定義“生-光-電”多模態(tài)融合，車上有DMS攝像頭、麥克風、手勢，當用戶有微小細微變化的時候，比如說打個哈氣會知道你有變化，給你推薦導航等語音觸發(fā)。甚至用戶手指一下說“去那里”，馬上會可以導航過去。

DMS攝像頭、語音麥克風、手勢傳感器結(jié)合在一起，用戶會感覺你對我秒懂，不需要做過多解釋，更多傳感器在一起融合才能把交互做得更完整。

前幾天國家全面放開三胎了，車越來越多，空間越來越大，車里有這么多家庭人，屬性肯定是不一樣的，用車的需求也是不一樣的，能不能讓車里的人同時獨立交互。交互之后汽車的反饋也是獨立的，相互之間不干擾。主駕就反饋導航，兒童給娛樂反饋。語音交互和聲音交互座艙聲音管理一定是一體化協(xié)同的。

為什么不說語音？語音肯定是非常重要的環(huán)節(jié)，下一步從聽、說、看、顯全方位和用戶感知在一起。不是簡單的把功能1+1+1加在一起，而是每個環(huán)里的交叉部分是非常關(guān)鍵的，這部分恰恰是每個領域都解決不好的問題，而交叉問題可以很好地解決。

看具體的案例——多模態(tài)免喚醒。

免喚醒跨場景多意圖的語音透傳式的交互非常重要，在車里做交互會發(fā)現(xiàn)未來車里有很多人，到底是通過人交互還是通過機器交互，是和誰交互呢？要做區(qū)分。怎么做很好的區(qū)分？在視覺上是不是有融合進來？我知道你的視線，就知道你是在和機器交互。

還有一些場景發(fā)現(xiàn)你的嘴唇有沒有動，如果沒有動突然出現(xiàn)聲音說明你沒有說話，就是干擾。視覺和語音結(jié)合在一起，達到多模態(tài)免喚醒交互，把在車內(nèi)交互的可靠性、自然度、連貫性做得更好。

虛擬形象，就是傳統(tǒng)語音波動，展示的就是波動條。需不需要人配合語音做表情？肯定是要的。因為語音是有情緒的，它高興了、悲傷了，在表情上要不要和語音做同步規(guī)劃？也一定要做。從多模態(tài)合成到多維度合成，多維度合成是情緒的面部表情表達和情緒語言表達展現(xiàn)在一起。

看一下數(shù)據(jù)，車內(nèi)數(shù)據(jù)平臺、場景、用戶、汽車有很多種數(shù)據(jù)，怎么把數(shù)據(jù)很好地融合在一起？中科創(chuàng)達做了場景引擎，我們也在做，很多行業(yè)都在做。

還要做深度語義理解，不僅僅是文本，知道你的圖像、視覺、語音等，要把深度語義理解做出來，給你的對話邏輯反饋一定是更加智能的。

一個女士開車，也許在車里響各種聲音，很多司機都不知道是什么意思還在繼續(xù)往前開，不知道該怎么做。出現(xiàn)這種問題的時候系統(tǒng)、語音助理能不能很好地和他交互，告訴他汽車當天發(fā)生什么事情了，是繼續(xù)開不要關(guān)注他，還是把車停在一邊應該做什么事情。對于車、對于人、對于安全、對于交通系統(tǒng)一定是很好的保證。怎么把汽車的知識圖譜和汽車本身相關(guān)的東西給用戶構(gòu)建成更好的交互是我們在思考的事情。

怎么給客戶創(chuàng)造價值？語音助理的屏在中空位置，每天和用戶打交道，他就是深度的用戶者，后面是汽車、廠商、品牌，能不能很好地連接在一起？車有很多支持，能不能很好地串在一起？一定是有的。

當車、數(shù)據(jù)到一定階段該保養(yǎng)了，你又知道用戶有這樣的需求，4S店又有這樣的服務，在恰當?shù)臅r機給用戶恰當?shù)靥嵝阉欢芙邮?。對主機廠來說，對客戶來講，用戶的深度轉(zhuǎn)化率會提升。

簡單看一下科大訊飛，6月9日剛過完20歲生日，總體來看科大訊飛現(xiàn)在屬于青年期，還在茁壯成長，希望未來科大訊飛大屏智能行業(yè)可以發(fā)展更好。

有兩個國家平臺，還有一個是國際對科大訊飛的評價，6月14日獲得了福布斯創(chuàng)新獎。

這都不是關(guān)鍵，關(guān)鍵的是可以通過趨勢看到國家政策、行業(yè)趨勢對人工智能的落地，以及落地的成果取得了階段性的階段，下一步是進入了真正大規(guī)模的推廣階段。

科大訊飛在人工智能行業(yè)做持續(xù)創(chuàng)新，科大訊飛對自己的要求希望從98提升到99，甚至是99.5%，這是作為最核心技術(shù)創(chuàng)新企業(yè)不能忘記的初心。

看一下行業(yè)內(nèi)服務的現(xiàn)狀，訊飛在2019年、2020年67%-70%的語音交互場景都是客戶提供的，交付的項目1000多個，累計裝機2300萬。

很有幸參加會議，我們要多模，產(chǎn)業(yè)、行業(yè)、企業(yè)在一起就是多模超腦融合的創(chuàng)新之旅，本身就是多模。

科大訊飛持AI之技，攜手行業(yè)生態(tài)，一起打造智能汽車出行體驗。

謝謝大家！

來源：第一電動網(wǎng)

作者：王鳴幽

本文地址：http://www.medic-health.cn/news/renwu/149544

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊37

分享到：

發(fā)表評論

新聞推薦

選擇車型
上牌城市	購車城市
姓名
手機號
驗證碼
	xxx

国产成人av一区二区三区在线,国产欧美性成人精品午夜,а√最新版在线天堂,欧洲成人一区二区三区,亚洲国产精品成人久久蜜臀

電動汽車

科大訊飛邢猛：面向智能座艙的多模感知技術(shù)及交互設計思考