国产成人av一区二区三区在线,国产欧美性成人精品午夜,а√最新版在线天堂,欧洲成人一区二区三区,亚洲国产精品成人久久蜜臀

  1. 首頁
  2. 資訊
  3. 人物
  4. 科大訊飛邢猛:面向智能座艙的多模感知技術(shù)及交互設計思考

科大訊飛邢猛:面向智能座艙的多模感知技術(shù)及交互設計思考

第一電動王鳴幽

2021年6月17日-19日,由中國汽車工業(yè)協(xié)會主辦的第11屆中國汽車論壇在上海嘉定舉辦。站在新五年起點上,本屆論壇以“新起點 新戰(zhàn)略 新格局——推動汽車產(chǎn)業(yè)高質(zhì)量發(fā)展”為主題,設置“1場閉門峰會+1個大會論壇+2個中外論壇+12個主題論壇”,全面集聚政府主管領導、全球汽車企業(yè)領袖、汽車行業(yè)精英,共商汽車強國大計,落實國家提出的“碳達峰、碳中和”戰(zhàn)略目標要求,助力構(gòu)建“雙循環(huán)”新發(fā)展格局。其中,在6月19日上午舉辦的主題論壇“智能座艙創(chuàng)新技術(shù)論壇”上,科大訊飛汽車事業(yè)部高級產(chǎn)品總監(jiān)邢猛發(fā)表了主題演講。以下內(nèi)容為現(xiàn)場演講實錄:

圖片 54.png

謝謝王教授,感謝王教授和論壇的邀請。如王教授很多,給我們科大訊飛合作機會,更是產(chǎn)學研深度的合作才能推動座艙進一步深度發(fā)展。

今天我分享的主題是“面向智能座艙的多模感知技術(shù)及交互設計思考”。

科大訊飛提得最多的就是語音,為什么今天不說語音呢?語音一定要說的,但未來語音到多模態(tài)一定是趨勢,科大訊飛進入語音行業(yè)還是比較早的,十多年了,從語音不可用、可用、不好用、好用,一直在做。應該怎么解決?從語音到多模態(tài)一定是未來的發(fā)展方式。

現(xiàn)在有很多人在說多模,多模是什么呢?是不是一堆傳感器堆在一起和用戶做交互?是也不是。

今天帶著自己的思考和大家交流。

一、語音。

怎么為用戶更好地服務,怎么占據(jù)用戶的時間,怎么在時間內(nèi)給用戶提供更好的服務是訴求。訴求在車內(nèi)會更痛,每天在車上待了將近兩個多小時,你會發(fā)現(xiàn)以前沒有機器、交互的時候在車內(nèi)是蠻枯燥的,有人陪你聊天蠻好的。智能網(wǎng)聯(lián)越來越發(fā)展,很多東西都已經(jīng)上車了,娛樂、導航、LBS、停車,現(xiàn)在感覺功能還不夠,還在逐漸堆功能。

這么多功能上車,對用戶來說到底是幸福還是負擔?這是我們深深思考的話題,做了這么多功能,從語音、服務,給用戶提供的功能他喜不喜歡?這是我們思考的問題。

怎么給用戶提供更好的交互方式?讓他們用起來更舒服。用戶接觸交互,信息輸入83%來自于視覺,11%來自于聽覺。但信息輸出第一步肯定是靠語音、語調(diào)。

但在車里,車里天然曲線性和受限性,把視覺和聽覺的平衡型打破了,在車內(nèi)很難全靠視覺來做,所以語音非常重要。

今天很多嘉賓分享的語音痛點問題我們深有感觸,所以總結(jié)出了語音交互的痛點問題,這也是對這些問題深入思考逐步解決的事情。

這么多年,行業(yè)、科大訊飛圍繞為了用戶提供更好的語音交互持續(xù)做。但真正想把語音交互閉環(huán)做下來,讓用戶在語音交互閉環(huán)下用的更爽更流暢。行業(yè)內(nèi)很多客戶想切斷鏈條,切斷后加入更多優(yōu)勢因素,都沒問題,就看怎么切入、怎么融合,把更多的好資源融合在一起。

技術(shù)是解決問題的基礎,是必要要素,但有了技術(shù)不一定全部解決用戶的問題,用戶要的是交互、體驗、服務,怎么把交互做好也是我們思考的問題,特別在車內(nèi)。

車內(nèi)首當其沖的是安全,所有的技術(shù)和交互是滿足一定目的,但是對車內(nèi)環(huán)境首先要保證安全,還有很多,像簡單、智能、人性等等。

舉個小小的例子,在車內(nèi)語音交互,以前是按鍵、語音喚醒。

比如說“飛魚”是科大訊飛的交互產(chǎn)品品牌名,我們和飛魚說:飛魚,你好,我想去喜來登酒店。”一堆一大還是能幫助你完成,但是足夠簡單嗎?足夠自然嗎?隨著用戶的使用不一定,怎么解決問題?一句話解決“你好飛魚,我想去哪”。這在行業(yè)里叫做One-shot。

但用戶發(fā)現(xiàn)在這件事情上還需要花很長時間,我的目的就是去喜來登酒店,可不可以有快速表達的方式?喜來登酒店。用戶說完之后,馬上可以反應的解決方案,像行業(yè)里的可見即可說。

但用這種問題解決方式是不是更好?能不能把語音的優(yōu)勢發(fā)揮出來?不一定,語音交互最大的優(yōu)勢是穿透力,所說的“穿透力”是有三個用途用一句話來表達,用一句語音把穿透力打穿是最大優(yōu)勢。

可見即可說在某些場景下能解決問題,但并不能把語音的最大優(yōu)勢發(fā)揮出來,看、點、說都是一步,并沒有把語音本質(zhì)的問題發(fā)揮到最大。該怎么做?有很多跨場景的免喚醒,場景完全是穿透式跨場景的,上句說“喜來登酒店”,下句話說的是“來首忘情水”。可以看到,語音交互把簡單、自然發(fā)揮到極致。

說一下智能和人性化,對智能化產(chǎn)品認知不足的人認為智能化是你能跟我說話就很厲害,但如果對智能化認知很足的用戶就知道智能化遠遠不止這些。

舉一個小小例子,我兒子叫邢子睿,有一次我玩用戶定義,我問邢總是誰,我給我兒子演示,他會說這個很智能,既然你知道我的名字你也知道我的信息,他高興得不得了。

把智能化、個性化釋放給用戶定義,讓他定義自己的智能化,也許他能找到自己的感覺出來。能不能讓用戶參與智能化、人性化的設計?在產(chǎn)品上在按照這樣的方式做,讓他定義對話,定義他認為好聽的模式、形式等。

二、多模。

從語音到多模一定是趨勢,不可能依靠語音解決所有問題,也不能解決所有問題。以人-車-廠為驅(qū)動的多模應該怎么做?

汽車是非常復雜的工業(yè)集成品,在車內(nèi)是集多種非常先進的傳感技術(shù)于一體,有麥克風、攝像頭、雷達,現(xiàn)在很多玻璃也有智能化了,以及音響,車內(nèi)的智能設備非常多。車是人工智能最好的舞臺。

車的屬性慢慢發(fā)生了變化,車不僅僅是車,傳統(tǒng)的數(shù)據(jù)車都是有的,車的數(shù)據(jù)沒變,但隨著智能化需求發(fā)展后會對人的需求有進一步的釋放。我在車里有更多的訴求,我要辦公,我要娛樂。對人數(shù)據(jù)的采集一定是未來越來越重要,會有場,場接觸的空間也會多。人、車、廠的數(shù)據(jù)是大平臺,采集了很多數(shù)據(jù),是移動空間。

有這種思考以后多模感知的融合一定不是單模的,多模高感知技術(shù)融合。其次多維數(shù)據(jù)更好地協(xié)同,目的是把用戶體驗、交互體驗提升。

這么多傳感器、數(shù)據(jù)加在一起,對客戶來講價值是什么?智能化是一個,但對客戶品牌的價值提升,更多商業(yè)模式的探索有沒有更好的途徑?一定是有的。

大家認為蘋果手機是賣手機的嗎?也許是,也許不是。

大場景架構(gòu)要定義“生-光-電”多模態(tài)融合,車上有DMS攝像頭、麥克風、手勢,當用戶有微小細微變化的時候,比如說打個哈氣會知道你有變化,給你推薦導航等語音觸發(fā)。甚至用戶手指一下說“去那里”,馬上會可以導航過去。

DMS攝像頭、語音麥克風、手勢傳感器結(jié)合在一起,用戶會感覺你對我秒懂,不需要做過多解釋,更多傳感器在一起融合才能把交互做得更完整。

前幾天國家全面放開三胎了,車越來越多,空間越來越大,車里有這么多家庭人,屬性肯定是不一樣的,用車的需求也是不一樣的,能不能讓車里的人同時獨立交互。交互之后汽車的反饋也是獨立的,相互之間不干擾。主駕就反饋導航,兒童給娛樂反饋。語音交互和聲音交互座艙聲音管理一定是一體化協(xié)同的。

為什么不說語音?語音肯定是非常重要的環(huán)節(jié),下一步從聽、說、看、顯全方位和用戶感知在一起。不是簡單的把功能1+1+1加在一起,而是每個環(huán)里的交叉部分是非常關(guān)鍵的,這部分恰恰是每個領域都解決不好的問題,而交叉問題可以很好地解決。

看具體的案例——多模態(tài)免喚醒。

免喚醒跨場景多意圖的語音透傳式的交互非常重要,在車里做交互會發(fā)現(xiàn)未來車里有很多人,到底是通過人交互還是通過機器交互,是和誰交互呢?要做區(qū)分。怎么做很好的區(qū)分?在視覺上是不是有融合進來?我知道你的視線,就知道你是在和機器交互。

還有一些場景發(fā)現(xiàn)你的嘴唇有沒有動,如果沒有動突然出現(xiàn)聲音說明你沒有說話,就是干擾。視覺和語音結(jié)合在一起,達到多模態(tài)免喚醒交互,把在車內(nèi)交互的可靠性、自然度、連貫性做得更好。

虛擬形象,就是傳統(tǒng)語音波動,展示的就是波動條。需不需要人配合語音做表情?肯定是要的。因為語音是有情緒的,它高興了、悲傷了,在表情上要不要和語音做同步規(guī)劃?也一定要做。從多模態(tài)合成到多維度合成,多維度合成是情緒的面部表情表達和情緒語言表達展現(xiàn)在一起。

看一下數(shù)據(jù),車內(nèi)數(shù)據(jù)平臺、場景、用戶、汽車有很多種數(shù)據(jù),怎么把數(shù)據(jù)很好地融合在一起?中科創(chuàng)達做了場景引擎,我們也在做,很多行業(yè)都在做。

還要做深度語義理解,不僅僅是文本,知道你的圖像、視覺、語音等,要把深度語義理解做出來,給你的對話邏輯反饋一定是更加智能的。

一個女士開車,也許在車里響各種聲音,很多司機都不知道是什么意思還在繼續(xù)往前開,不知道該怎么做。出現(xiàn)這種問題的時候系統(tǒng)、語音助理能不能很好地和他交互,告訴他汽車當天發(fā)生什么事情了,是繼續(xù)開不要關(guān)注他,還是把車停在一邊應該做什么事情。對于車、對于人、對于安全、對于交通系統(tǒng)一定是很好的保證。怎么把汽車的知識圖譜和汽車本身相關(guān)的東西給用戶構(gòu)建成更好的交互是我們在思考的事情。

怎么給客戶創(chuàng)造價值?語音助理的屏在中空位置,每天和用戶打交道,他就是深度的用戶者,后面是汽車、廠商、品牌,能不能很好地連接在一起?車有很多支持,能不能很好地串在一起?一定是有的。

當車、數(shù)據(jù)到一定階段該保養(yǎng)了,你又知道用戶有這樣的需求,4S店又有這樣的服務,在恰當?shù)臅r機給用戶恰當?shù)靥嵝阉欢芙邮?。對主機廠來說,對客戶來講,用戶的深度轉(zhuǎn)化率會提升。

簡單看一下科大訊飛,6月9日剛過完20歲生日,總體來看科大訊飛現(xiàn)在屬于青年期,還在茁壯成長,希望未來科大訊飛大屏智能行業(yè)可以發(fā)展更好。

有兩個國家平臺,還有一個是國際對科大訊飛的評價,6月14日獲得了福布斯創(chuàng)新獎。

這都不是關(guān)鍵,關(guān)鍵的是可以通過趨勢看到國家政策、行業(yè)趨勢對人工智能的落地,以及落地的成果取得了階段性的階段,下一步是進入了真正大規(guī)模的推廣階段。

科大訊飛在人工智能行業(yè)做持續(xù)創(chuàng)新,科大訊飛對自己的要求希望從98提升到99,甚至是99.5%,這是作為最核心技術(shù)創(chuàng)新企業(yè)不能忘記的初心。

看一下行業(yè)內(nèi)服務的現(xiàn)狀,訊飛在2019年、2020年67%-70%的語音交互場景都是客戶提供的,交付的項目1000多個,累計裝機2300萬。

很有幸參加會議,我們要多模,產(chǎn)業(yè)、行業(yè)、企業(yè)在一起就是多模超腦融合的創(chuàng)新之旅,本身就是多模。

科大訊飛持AI之技,攜手行業(yè)生態(tài),一起打造智能汽車出行體驗。

謝謝大家!

來源:第一電動網(wǎng)

作者:王鳴幽

本文地址:http://www.medic-health.cn/news/renwu/149544

返回第一電動網(wǎng)首頁 >

收藏
37
  • 分享到:
發(fā)表評論
新聞推薦
第一電動網(wǎng)官方微信

反饋和建議 在線回復

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進行報價!

第一電動網(wǎng)
Hello world!
-->