国产成人av一区二区三区在线,国产欧美性成人精品午夜,а√最新版在线天堂,欧洲成人一区二区三区,亚洲国产精品成人久久蜜臀

  1. 首頁(yè)
  2. 大牛說(shuō)
  3. 擔(dān)心無(wú)人駕駛汽車(chē)會(huì)“死機(jī)”嗎?芯片的“功耗戰(zhàn)爭(zhēng)”正沖它而來(lái)

擔(dān)心無(wú)人駕駛汽車(chē)會(huì)“死機(jī)”嗎?芯片的“功耗戰(zhàn)爭(zhēng)”正沖它而來(lái)

冬至已過(guò),2017年最冷的時(shí)節(jié)也日漸逼近。然而,即便是在最冷的日子里,如果你乘坐的是一輛搭載著英偉達(dá)的Drive PX 2計(jì)算平臺(tái)的無(wú)人駕駛汽車(chē),你可能根本就不用開(kāi)空調(diào)。因?yàn)?,這是一輛“有情懷有溫度”的“暖車(chē)”。 

但千萬(wàn)別高興得太早——不用開(kāi)空調(diào)當(dāng)然好,但過(guò)分的是,極有可能,每過(guò)兩個(gè)小時(shí),你便不得不停下來(lái)打開(kāi)窗戶(hù)“吸吸外面的冷氣”。冬季尚且如此,到夏季,就更麻煩了——作為無(wú)人車(chē)“大腦”的PX 2被“熱暈”、“熱死”也有可能。

功耗太高、運(yùn)行中產(chǎn)生的熱量太多,已經(jīng)成為GPU最大的軟肋之一。正因?yàn)槿绱耍?a class='link' target='_blank'>特斯拉在最近“悍然宣布”要自己研發(fā)芯片時(shí),也把“降低功耗”作為主要?jiǎng)訖C(jī)之一。 

事實(shí)上,早在特斯拉之前,GPU的“功耗太高”,已經(jīng)成為眾多“友商”向它發(fā)起進(jìn)攻的突破口——英特爾、谷歌、Mobieye、Wave Computing、Graphcore、地平線、寒武紀(jì)等多家芯片廠商都在以“我的功耗更低”為資本來(lái)跟GPU搶生意,一場(chǎng)針對(duì)英偉達(dá)的圍剿正在展開(kāi)。 

一.GPU:生命不能承受之“熱”

首先必須澄清一下,通常所說(shuō)的“GPU功耗”,并不是單顆芯片的功耗,而是基于GPU及對(duì)應(yīng)算法的整個(gè)計(jì)算平臺(tái)的功耗;因?yàn)椋珿PU常常是跟算法結(jié)合在一起,作為整體方案一起使用的,脫離計(jì)算平臺(tái)談單顆芯片的功率,沒(méi)有多大實(shí)際意義。 

目前,特斯拉Model S上的Autopilot 2.0使用的自動(dòng)駕駛計(jì)算平臺(tái)是英偉達(dá)的Drive PX 2。 PX 2使用的處理器為GPU TeslaP100,功耗最高可達(dá)250W,10小時(shí)2.5度電。10小時(shí)2.5度電是什么意思呢? 

Model S75與Model S P100D的電池容量分別為75kWh、100kWh,續(xù)航里程分布為417公里、540公里,算下來(lái),每1度電可以跑5.4公里,2.5度電,可以跑13.5公里。也就是說(shuō),Drive PX 2每運(yùn)行10小時(shí),Model S的續(xù)航里程可能就減少13.5公里。(英偉達(dá)提供給Tesla的PX 2,是定制版,相對(duì)于通用版,在功耗上得到了優(yōu)化。)

根據(jù)中國(guó)科技部在去年8月份發(fā)布的《“新能源汽車(chē)”試點(diǎn)專(zhuān)項(xiàng)2017年度項(xiàng)目申報(bào)指南建議》,到2020年之前,電動(dòng)車(chē)的耗電應(yīng)降低到10度/100公里以?xún)?nèi),算下來(lái),也就是,1度電至少可以跑10公里。假如到時(shí)Drive PX 2被裝在“中國(guó)標(biāo)準(zhǔn)”的電動(dòng)汽車(chē)上,將可能產(chǎn)生什么后果?PX 2每多運(yùn)行10小時(shí),車(chē)輛的續(xù)航里程就會(huì)減少25公里以上。 

如果搭載PX 2的無(wú)人駕駛汽車(chē)是私家車(chē),那么,連續(xù)運(yùn)行10小時(shí)的情況并不常見(jiàn),但如果這輛無(wú)人駕駛汽車(chē)是出行運(yùn)營(yíng)車(chē)輛,則連續(xù)運(yùn)營(yíng)10—20小時(shí)便是家常便飯。在這種情況下,PX 2的高功耗無(wú)疑會(huì)提高無(wú)人車(chē)的充電頻次,從長(zhǎng)期看,還會(huì)加速電池的“折壽”。 

并且,對(duì)運(yùn)營(yíng)車(chē)輛來(lái)說(shuō),充電頻次過(guò)高,還會(huì)增加時(shí)間成本,減少盈利。 

如果說(shuō)GPU功耗過(guò)高對(duì)電池帶來(lái)的耗損還主要是“錢(qián)的問(wèn)題”,那么,散熱問(wèn)題則可能“事關(guān)人命”,這也是更令人頭疼的問(wèn)題。 

芯片功耗太高最大的問(wèn)題并不是“太費(fèi)電”,而是散熱困難——夏天,車(chē)內(nèi)的自然溫度可以達(dá)到四五十度,再跟計(jì)算平臺(tái)產(chǎn)生的熱量疊加再一起,器件的溫度達(dá)到100-200度,輕則發(fā)燙,重則燒壞,進(jìn)而導(dǎo)致系統(tǒng)“死機(jī)”、或“自動(dòng)關(guān)機(jī)”。 

手機(jī)在死機(jī)后重啟一下就可以了,但無(wú)人駕駛汽車(chē)要是在高速行駛的過(guò)程中系統(tǒng)崩潰,是性命攸關(guān)的事,馬虎不得。為了避免系統(tǒng)崩潰,很多以GPU為核心處理器的無(wú)人駕駛汽車(chē),每開(kāi)兩個(gè)小時(shí)就要停下來(lái)散熱。 

為應(yīng)對(duì)功耗太高的問(wèn)題,PX 2的用戶(hù)們紛紛搭載水冷系統(tǒng)、小電風(fēng)扇、散熱片等各種散熱設(shè)備。對(duì)電子產(chǎn)品來(lái)說(shuō),散熱設(shè)備本是常識(shí),無(wú)甚新奇之處,但需要強(qiáng)調(diào)的是,功耗越高的器件/系統(tǒng),需要搭配的散熱設(shè)備就越多,而這個(gè)散熱設(shè)備,也是需要耗電的,這就等于新增了一次功耗。 

并且,設(shè)計(jì)中需要的風(fēng)扇和散熱器等硬件越多,系統(tǒng)故障的概率就越大,這將影響系統(tǒng)的可靠性,甚至是壽命。 

由于被用戶(hù)吐槽太多,英偉達(dá)也已意識(shí)到功耗是它的軟肋,因此,它曾經(jīng)做過(guò)“設(shè)計(jì)低功耗的GPU”的努力,但結(jié)果并不理想。 

英偉達(dá)在2017年CES展上推出了新款處理器Soc Xavier(由GPU TeslaV100集成而來(lái)),運(yùn)算速度為30 TOPs。當(dāng)時(shí)媒體紛紛在計(jì)算,說(shuō)Xavier的計(jì)算能力提高至PX 2(24 TOPs)的1.3倍,而功率只有30w,僅為后者的幾分之一。這進(jìn)步,真是杠杠滴! 

但是,先別急著高興,據(jù)《建約車(chē)評(píng)》向英偉達(dá)工程人員確認(rèn),Soc Xavier并非是像PX 2那樣能夠“獨(dú)當(dāng)一面”的產(chǎn)品,它們之間不存在可比性。 

Xavier只是英偉達(dá)在2017年10月份推出的最新計(jì)算平臺(tái)Drive PX Pegasus上面的“半成品“??墒牵?dāng)以Xavier為基礎(chǔ)的PX Pegasus出來(lái)后,”一切都變了“——Pegasus的深度學(xué)習(xí)計(jì)算能力為320萬(wàn),是PX 2的13.3倍,而最高功耗也升高至500W。 

雖然從能效(計(jì)算能力/功率)的角度看,PX Pegasus相比于PX 2是進(jìn)步了不少,但每2個(gè)小時(shí)一度電,這個(gè)還是挺可怕的。因此,英特爾首席工程師兼自動(dòng)駕駛解決方案首席架構(gòu)師杰克·威仕特“黑”P(pán)X Pegasus功率依然太高,不是沒(méi)有道理的。 

二.FPGA:五十步笑百步

在英偉達(dá)搭上了AI的東風(fēng)一路青云直上的歲月里,昔日芯片市場(chǎng)上絕對(duì)的霸主英特爾是很不服氣的,它總想著如何扳回一局。在AI芯片市場(chǎng)上,英特爾最主要的動(dòng)作就是買(mǎi)買(mǎi)買(mǎi),這其中,就包括對(duì)FPGA領(lǐng)軍公司Altera的收購(gòu)。 

英特爾的FPGA,在多傳感器融合中發(fā)揮著重要作用。FPGA,是公認(rèn)的比GPU“能效更高”的AI芯片。 

我們可以將英特爾的FPGA之Stratix系列中等級(jí)最高的Stratix 10(14nm)與英偉達(dá)GPU中目前等級(jí)最高的Tesla V100(12nm)做個(gè)比較:計(jì)算能力方面,Stratix 10為10 TFLOPs,Tesla V100為14 TFLOPs;最高功耗方面,前者為 120W,而后者為300W。雖然Stratix 10的計(jì)算能力稍微遜色一點(diǎn),但如果綜合來(lái)看(功率/計(jì)算能力),完成相同的計(jì)算能力,它所需要的功耗要比Tesla V100小得多。 

FPGA之所以比GPU能效更高,主要有以下幾個(gè)原因—— 

1.多線作戰(zhàn)

FPGA雖然和GPU都擅長(zhǎng)“并行處理”來(lái)提高計(jì)算效率,但兩者并行處理的方式并不完全相同:

GPU只有數(shù)據(jù)并行,比如把一組龐大的數(shù)據(jù)拆分成6400份,然后分別輸入6400個(gè)小的計(jì)算單元中,所有的計(jì)算單元都聽(tīng)命于同一個(gè)指令、按照統(tǒng)一的步驟計(jì)算,等6400份計(jì)算都分別完成后,再統(tǒng)一輸出,匯總到一起;而如果是在FPGA中,則不僅數(shù)據(jù)并行,而且還有“流水線并行”,即這6400份數(shù)據(jù)在各自的計(jì)算單元中是由不同的指令操控著,每處理完一份,就能馬上輸出。 

基于這種特質(zhì),在面對(duì)壓縮、圖像處理、機(jī)器學(xué)習(xí)等計(jì)算量比較密集的任務(wù)時(shí),F(xiàn)PGA更有能力避免延時(shí),效率要比GPU高很多。因此,完成同樣的計(jì)算任務(wù),F(xiàn)PGA所需要的功耗也要比GPU少得多。 

2.不需要“兜圈子” 

跟CPU一樣,GPU在運(yùn)行中也依賴(lài)于傳統(tǒng)的馮.諾依曼架構(gòu),即指令和數(shù)據(jù)均存儲(chǔ)于外部存儲(chǔ)器中,處理器需要從存儲(chǔ)器中取出指令、解碼,然后再執(zhí)行該指令。GPU里面有數(shù)千個(gè)小的計(jì)算單元,它同時(shí)運(yùn)行最多數(shù)十萬(wàn)個(gè)小程序,因訪問(wèn)存儲(chǔ)器需要“排隊(duì)”,所以實(shí)際上大部分小程序都被“卡”住了,真正在GPU上”動(dòng)起來(lái)“的只是很小的一部分。然而,這些正在“排長(zhǎng)隊(duì)”的小程序卻要占用芯片面積、消耗內(nèi)存帶寬,結(jié)果,抬高了GPU的功耗。

而對(duì)于可編程的FPGA來(lái)說(shuō),由于硬件電路是通過(guò)程序來(lái)定義的,它不需要取指令與指令譯碼過(guò)程,計(jì)算得到的結(jié)果也無(wú)需在主存儲(chǔ)器臨時(shí)保存,可以被直接送到下一步。因此,相比于通過(guò)GPU實(shí)現(xiàn),不僅提高運(yùn)算速度,而且對(duì)存儲(chǔ)器帶寬的需求也會(huì)低很多,這就節(jié)省了功耗。 

3.計(jì)算資源的浪費(fèi)少 

GPU的硬件資源是由加法器、乘法器這樣的硬件單元組成的,并且,一經(jīng)配置,就無(wú)法更改。比如,加法器配置15個(gè)、乘法器配置15個(gè),但實(shí)際使用的時(shí)候,可能前者的用量是2個(gè),而后者的用量只需要2個(gè),這就白白浪費(fèi)了13個(gè)加法器的資源。 

而FPGA則具有“可編程”的靈活性,用戶(hù)可以根據(jù)特定應(yīng)用的需求對(duì)硬件進(jìn)行編程,如果應(yīng)用里面的加法運(yùn)算非常多就可以調(diào)用大量的邏輯資源去實(shí)現(xiàn)加法器,從而保證計(jì)算資源被充分利用。計(jì)算資源浪費(fèi)少,同時(shí)就意味著功耗的節(jié)省。 

不過(guò),具體到個(gè)案中,F(xiàn)PGA是否真的就在功耗上比GPU更有優(yōu)勢(shì),還得結(jié)合應(yīng)用場(chǎng)景來(lái)看,不能簡(jiǎn)單地生搬硬套。 

具體地說(shuō),如果FPGA的架構(gòu)優(yōu)化能做得很好以致于一塊FPGA的平均性能能夠接近一塊GPU,那么FPGA方案的總功耗遠(yuǎn)小于GPU,散熱問(wèn)題可以大大減輕。反之,如果需要二十塊FPGA才能實(shí)現(xiàn)一塊GPU的平均性能,那么FPGA在功耗方面并沒(méi)有優(yōu)勢(shì)。 

總體上,基于FPGA的計(jì)算平臺(tái)的功耗在30W—200W,雖然上限要比基于GPU的Drive PX 2要低一些,但根據(jù)業(yè)內(nèi)人士的說(shuō)法,使用了FPGA方案的谷歌無(wú)人駕駛汽車(chē)依然無(wú)法逃避“每開(kāi)兩個(gè)小時(shí)就要停下來(lái)散熱”的命運(yùn)。 

英特爾總不忘在各種場(chǎng)合向它的潛在客戶(hù)黑一下英偉達(dá),黑一下GPU的功耗,但站在旁觀者的角度,F(xiàn)PGA黑GPU功耗高,也許只是“五十步笑百步”而已。 

三.ASIC:做減法,追求“小而美”

如果要降低功耗,需要從哪些方面入手?這是很多人都好奇的問(wèn)題。在芯片領(lǐng)域有近30年經(jīng)驗(yàn)的地平線機(jī)器人公司首席芯片架構(gòu)師周峰博士認(rèn)為,影響芯片功耗的主要是制程和架構(gòu),那么,要降低功耗,也應(yīng)該從這兩個(gè)角度入手。 

制程

在架構(gòu)不變的前提下,芯片的制程等級(jí)越高,功耗就越低。比如,一款芯片,在14nm的制程下做出來(lái),要比在28nm的制程下做出來(lái)功耗更低。通過(guò)提高制程等級(jí)來(lái)降低功耗,一般發(fā)生在同一系列產(chǎn)品的更新?lián)Q代上,比如,28nm制程下的FPGA Stratix V在升級(jí)到14nm制程下的Stratix 10后,功耗降低了40~70%。

不過(guò),對(duì)廠商來(lái)說(shuō),改制程的成本往往是一個(gè)天文數(shù)字,如果沒(méi)有一個(gè)可觀的預(yù)期銷(xiāo)量,廠商通常很難僅僅為了降低功耗就去改制程。 

架構(gòu)

在不改變制程的條件下,可以通過(guò)對(duì)芯片架構(gòu)進(jìn)行重新設(shè)計(jì),通過(guò)調(diào)整結(jié)構(gòu)、縮小面積、并配合一定的算法等方式把功耗降下來(lái)。這種做法,比改變制程的難度更大,并且,重新設(shè)計(jì)架構(gòu)的周期也很長(zhǎng),但如考慮到高能效帶來(lái)的功耗節(jié)省以及效率提升所能帶來(lái)的總體維持/營(yíng)運(yùn)成本的降低,有遠(yuǎn)見(jiàn)的公司還是愿意這樣做。

通過(guò)修改架構(gòu)來(lái)降低功耗,往往發(fā)生在不同產(chǎn)品、不同廠商之間的競(jìng)爭(zhēng)中。比如,谷歌推出的TPU、Mobileye推出的EyeQ、地平線推出的BPU,就是通過(guò)改變芯片架構(gòu)來(lái)降低功耗。 

那么,為什么通過(guò)調(diào)整架構(gòu)就可以降低功耗呢? 

GPU和FPGA都是通用芯片。所謂“通用”,即功能“大而全”,某些功能在特定的應(yīng)用場(chǎng)景中是派不上用場(chǎng)、被浪費(fèi)的,然而,就是這些派不上用場(chǎng)的功能,卻硬是要運(yùn)行、要“發(fā)光放熱”。 

GPU,本不是為了做AI計(jì)算而設(shè)計(jì)的,它的主要功能是用來(lái)做圖像處理的,這就導(dǎo)致,在AI計(jì)算中,僅有占芯片總面積不到4成的計(jì)算單元被有效利用。比如,GPU 有6400個(gè)微小處理器,在做圖像處理時(shí),這6400個(gè)處理器全部都用上了,但在做AI計(jì)算時(shí),只有效利用了一小部分,可能是2000個(gè),結(jié)果,剩下的那一部分計(jì)算資源就被浪費(fèi)了。然而,GPU 仍然需要為這部分被浪費(fèi)的計(jì)算量承擔(dān)功耗。   

因此,被應(yīng)用在AI計(jì)算中的GPU,要降低功耗,就得“做減法”,把傳統(tǒng)的圖像處理功能給砍掉。 

FPGA也存在“產(chǎn)能利用不足”的問(wèn)題。FPGA的運(yùn)算電路基于查找表,比如說(shuō),F(xiàn)PGA內(nèi)部有1000萬(wàn)個(gè)自定義邏輯部件,一個(gè)4輸入的查找表單元需要96個(gè)晶體管來(lái)支持,然而,這96個(gè)晶體管中,絕大部分都屬于冗余。這些冗余也必然體現(xiàn)在芯片的面積和功耗上。 

要想避免因?yàn)椤爱a(chǎn)能利用不足”而導(dǎo)致的功耗浪費(fèi),最好的方法就是,通過(guò)重新設(shè)計(jì)芯片架構(gòu),開(kāi)發(fā)針對(duì)特定應(yīng)用場(chǎng)景的專(zhuān)用芯片,這就是走“小而美”路線的ASIC。在ASIC中,除了必要的對(duì)外連接及對(duì)內(nèi)中控部分,所有的晶體管都可以完全被用于計(jì)算上,而那些“閑置產(chǎn)能”都被砍掉了,因此,對(duì)應(yīng)的功耗浪費(fèi)也省掉了。 

因?yàn)槭恰皩?zhuān)用”,所以,ASIC的設(shè)計(jì)難度和開(kāi)發(fā)成本都要比GPU和FPGA高得多,而且,周期也更長(zhǎng)——一般來(lái)說(shuō),基于FPGA的開(kāi)發(fā)周期大約為6個(gè)月,而相同規(guī)格的ASIC則需要1年左右。但一旦量產(chǎn),成本就會(huì)比GPU和FPGA低得多(特定的用戶(hù)不需要像對(duì)GPU那樣為某些“閑置”的功能買(mǎi)單)。 

并且,由于計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制,ASIC與通用芯片相比,在節(jié)省功耗的同時(shí),還具有計(jì)算性能高、體積小等多種優(yōu)點(diǎn)。 

馬斯克曾表示,“人工智能專(zhuān)用芯片將大幅度降低能耗和成本”,而他的搭檔吉姆?凱勒也表示,專(zhuān)用芯片可以提升效率。由此看,特斯拉正在研發(fā)的芯片應(yīng)該也是ASIC。 

在這里,我們列舉三款已經(jīng)有成型產(chǎn)品的ASIC芯片。 

1.谷歌—TPU 

很早之前,谷歌就意識(shí)到GPU更適合訓(xùn)練,卻不善于做訓(xùn)練后的分析決策,因此,它得自己開(kāi)發(fā)一款專(zhuān)門(mén)用于做分析決策的AI芯片。在低調(diào)使用了一兩年后,在2016年5月份召開(kāi)的Google I/O大會(huì)上,這款專(zhuān)用芯片TPU終于閃亮登場(chǎng)了(在2017年5月份又公布了TPU 2.0版)。 

谷歌聲稱(chēng)TPU(以下簡(jiǎn)稱(chēng)TPU 1)的運(yùn)算速度“比當(dāng)前CPU和GPU快15-30倍”,同時(shí)“功耗還要低30—80倍”,但很快遭到黃仁勛及其擁護(hù)者的“打臉”,他們紛紛表示,谷歌是拿自己新出的產(chǎn)品跟英偉達(dá)兩年前的舊產(chǎn)品TeslaK80做比較,不太厚道。 

甚至,直到谷歌在2017年推出新一代TPU即TPU2時(shí),英偉達(dá)方面也稱(chēng),他家的最新款GPU Tesla V100在計(jì)算性能可以秒殺TPU2。 

TPU2的最高功耗在130-160W之間,但其計(jì)算能力,公開(kāi)資料只能查到其半精度浮點(diǎn)計(jì)算能力為45 TFLOPs,至于流傳的180 TFLOPs是什么情景下的則語(yǔ)焉不詳;而GPU Tesla V100,最高功耗300W,計(jì)算能力為單精度浮點(diǎn)15 TFLOPs,半精度浮點(diǎn)計(jì)算能力暫不清楚,因此,無(wú)法直接比較。但即便是Tesla V100的計(jì)算能力超過(guò)TPU 2,這也是以超過(guò)后者兩倍的功耗為代價(jià)的,論能效的話,應(yīng)該還是TPU 2更占優(yōu)勢(shì)。 

之所以說(shuō)在功耗戰(zhàn)爭(zhēng)中TPU 2能贏過(guò)GPU,就因?yàn)樗?ASIC,由于只執(zhí)行單一工作,速度更快也在情理之中。TPU和GPU之間除了性能較量,更多代表的是ASIC和通用型芯片這兩種設(shè)計(jì)思路間的博弈。 

不過(guò),由于TPU只用于云端計(jì)算,不在終端使用,并且,也只是谷歌自己用,而不對(duì)外銷(xiāo)售,因此,它跟其他廠商的AI芯片之間并不存在太強(qiáng)的競(jìng)爭(zhēng)關(guān)系。 

2. Mobileye—EyeQ 

被英特爾收購(gòu)的Mobileye所產(chǎn)的ADAS視覺(jué)處理芯片EyeQ,也屬于ASIC。在跟英偉達(dá)走到一起之前,特斯拉就使用的EyeQ。EyeQ目前已經(jīng)更新到第四代,最近蔚來(lái)汽車(chē)剛發(fā)布的量產(chǎn)車(chē)ES8,即為全球首款使用EyeQ 4作為自動(dòng)駕駛處理器的量產(chǎn)車(chē)。

將EyeQ 4與英偉達(dá)的最新處理器Xaiver做個(gè)比較會(huì)很有意思。 

EyeQ 4 可以在 3W 的功耗下提供 2.5 TOPs 的計(jì)算能力,Xavier在30W的功率下提供 30 TOPs的計(jì)算能力,計(jì)算一下能效可知,在EyeQ 4中,每1W可支持0.8 TOPs的計(jì)算能力,而在Xavier中,每1W可支持1 TOPs的計(jì)算能力,Vavier的能效更高。 

不過(guò),在這場(chǎng)比較中,Xavier以微弱優(yōu)勢(shì)勝出,卻并不能否認(rèn)ASIC在降低功耗方面的能力——有一個(gè)關(guān)鍵的問(wèn)題忽略了,制程,EyeQ 4是基于28nm的制程生產(chǎn)的,而Xavier則是基于16nm的制程。也就是說(shuō),Xavier在能效上超過(guò)EyeQ 4,要?dú)w功于更先進(jìn)的制程,而非芯片架構(gòu)。 

當(dāng)EyeQ的制程從28nm升級(jí)到7nm的時(shí)候,它在功耗上的優(yōu)勢(shì)就立馬可以秒殺Xavier。2016年5月,當(dāng)時(shí)尚未被英特爾收購(gòu)的Mobieye發(fā)布了最新一代芯片EyeQ 5,這款芯片將于2020年上市。在本月初的洛杉磯車(chē)展上,英特爾執(zhí)行長(zhǎng)Brian Krzanich強(qiáng)調(diào),“EyeQ 5,在深度學(xué)習(xí)中的能效要比英偉達(dá)的Xavier高出1倍以上。” 

英偉達(dá)的人聽(tīng)了這句話可能會(huì)很不舒服,但我們可以做個(gè)簡(jiǎn)單的比較——計(jì)算能力方面,EyeQ 5是 24 TOPs,Xavier是30 TOPs;功耗方面,前者是5-10W,而后者則為30W。 再比較一下能效(計(jì)算能力/功率),EyeQ 5為Xavier的2.4—4.8倍。 

可以,在降低功耗的問(wèn)題上,Mobileye走的是ASIC和改進(jìn)制程“兩手抓,兩手都要硬”的路線。 

3. 地平線—BPU 

這場(chǎng)功耗戰(zhàn)爭(zhēng)中,還有一個(gè)后起之秀,即由原百度自動(dòng)駕駛創(chuàng)始人余凱博士創(chuàng)辦的地平線機(jī)器人公司。地平線自2015年成立之初就以生產(chǎn)“低成本低功耗”的AI芯片為使命,2017年12月20日,他們的第一代低功耗芯片“征程”(Journey)和“旭日”(Sunrise)系列也正式發(fā)布。 

其中,“征程”將主要用做于智能駕駛平臺(tái)的核心處理器,而“旭日”將主要運(yùn)用于智能城市、智能商業(yè)中的人臉識(shí)別等。

地平線將這兩款自研的芯片架構(gòu)命名為BPU(BrainProcessUnit)。第一代BPU的計(jì)算能力為1Tops,延時(shí)低于30ms,可實(shí)時(shí)處理1080P@30幀,并對(duì)每幀中的200個(gè)目標(biāo)進(jìn)行檢測(cè)、跟蹤、識(shí)別,而其功率則僅為0.5—2.5W,典型功耗為1.5W。 

數(shù)據(jù)要經(jīng)過(guò)比較才有意義。 

比如英偉達(dá)Drive PX 2,圖像處理能力可達(dá)2800幀/秒,不到BPU的3倍,但功耗卻高達(dá)250W,是后者的上百倍。從能效的角度,BPU的優(yōu)勢(shì)十分明顯。 

與PX 2相比,BPU能識(shí)別的目標(biāo)數(shù)量確實(shí)是“少了點(diǎn)”,但在周峰博士看來(lái),這并不能算是一個(gè)遺憾?!靶酒瑧?yīng)該達(dá)到怎樣的能力,取決于應(yīng)用場(chǎng)景。從能力上來(lái)說(shuō),我們也可以做到每禎識(shí)別400個(gè)目標(biāo),但畢竟這樣會(huì)影響檢測(cè)速度、增加功耗,而且也不必要——人在開(kāi)車(chē)的時(shí)候,才能同時(shí)處理多少個(gè)目標(biāo)?針對(duì)自動(dòng)駕駛的ADAS系統(tǒng),每禎識(shí)別200個(gè)目標(biāo),最小分辨率達(dá)到32*32,這就已經(jīng)足夠了?!?nbsp;

說(shuō)200個(gè)目標(biāo)“足夠了”,是因?yàn)锽PU能夠?qū)δ繕?biāo)進(jìn)行“精準(zhǔn)識(shí)別”。通常,圖像處理中有大量并不重要的冗余信息,而地平線則通過(guò)算法設(shè)計(jì)“無(wú)視”掉那些跟無(wú)人駕駛無(wú)關(guān)的干擾圖像信息。這就減少了處理器的計(jì)算負(fù)擔(dān),將處理效率提高10倍以上,同時(shí),也節(jié)省了功耗。 

為芯片設(shè)計(jì)獨(dú)特算法的另一個(gè)優(yōu)勢(shì)是,芯片中的乘法器利用率得到了提供。通常,芯片中的乘法器利用率在20%—60%,而地平線BPU乘法器利用率的平均值為96%,峰值甚至達(dá)到了100%。這就減少了計(jì)算資源的浪費(fèi),提高了能效。 

意即,BPU的低功耗,不僅得益于專(zhuān)用的芯片架構(gòu),也要?dú)w功于專(zhuān)用的算法。 

在自動(dòng)駕駛領(lǐng)域,第一代BPU“征程”(Jounery)具備同時(shí)對(duì)行人、機(jī)動(dòng)車(chē)、非機(jī)動(dòng)車(chē)、車(chē)道線、交通標(biāo)志牌、紅綠燈等目標(biāo)進(jìn)行精準(zhǔn)的實(shí)時(shí)檢測(cè)與識(shí)別的處理能力,將應(yīng)用于基于視覺(jué)感知的ADAS(雨果平臺(tái))上;明年,地平線還將發(fā)布第二代BPU,搭載第二代BPU的雨果平臺(tái)將支持多傳感器融合,應(yīng)用于L3和特定場(chǎng)景下L4級(jí)的自動(dòng)駕駛,感知能力強(qiáng)大到連行人“下一個(gè)5秒鐘將怎么走”這樣的細(xì)節(jié)都可以預(yù)測(cè)。

目前,地平線已在全球四大汽車(chē)市場(chǎng)(美國(guó)、德國(guó)、日本和中國(guó))同博世等多家頂級(jí)Tier1和整車(chē)廠建立起合作關(guān)。不過(guò),需要注意的是,地平線并不直接向客戶(hù)賣(mài)BPU,而是跟算法捆綁在一起,作為整體方案來(lái)銷(xiāo)售。 

其實(shí),在創(chuàng)立地平線之前,余凱博士就已經(jīng)意識(shí)到,要想達(dá)到在同等性能下功耗更低、成本更小的目標(biāo),就必須構(gòu)建“芯片+算法”的一整套解決方案,因?yàn)?,無(wú)人駕駛的某些核心算法要跟專(zhuān)用的芯片匹配,才能達(dá)到最好的效果,而芯片的功耗也會(huì)受算法的影響。在AI時(shí)代,用算法和軟件來(lái)定義芯片,并通過(guò)算法來(lái)優(yōu)化芯片將成為一種趨勢(shì)。 

今后,地平線還將構(gòu)建一個(gè)芯片訓(xùn)練平臺(tái),用戶(hù)可以在這個(gè)平臺(tái)上做各種模擬測(cè)試、訓(xùn)練,積累數(shù)據(jù)、改進(jìn)算法。 

細(xì)數(shù)全球范圍內(nèi)的無(wú)人駕駛方案供應(yīng)商,Mobieye跟地平線的相似度最高:視覺(jué)方案為主,軟硬一體化,本地計(jì)算。但余凱認(rèn)為,地平線的方案更適合中國(guó)的道路場(chǎng)景。 

“Mobileye的車(chē)尾檢測(cè)做得很好,但車(chē)輛的側(cè)面檢測(cè)效果就并沒(méi)有那么理想,這是因?yàn)闅W美的高速路況大家很少變道。地平線在國(guó)內(nèi)與一些保有自主車(chē)輛的公司,今年有50輛車(chē)載華東地區(qū)和重慶路測(cè),而路測(cè)得到的數(shù)據(jù),讓我們看到了車(chē)輛側(cè)面檢測(cè)、行人檢測(cè)這些中國(guó)特有的問(wèn)題,并做了針對(duì)性的算法優(yōu)化?!?nbsp;余凱說(shuō)。 

由于中國(guó)的路況更復(fù)雜,搞定了中國(guó)市場(chǎng),再對(duì)其他路況更好的汽車(chē)市場(chǎng)進(jìn)行“降維進(jìn)攻”就容易多了。這也讓地平線在2025年前實(shí)現(xiàn)“有3000萬(wàn)輛汽車(chē)都內(nèi)置著地平線的自動(dòng)駕駛處理器BPU”這一愿景有了更大的底氣。 

不僅如此,在文本所聚焦的功耗問(wèn)題上,地平線也跟能提供“最優(yōu)解”的Mobieye“有得一拼”。 

地平線的BPU 1.0跟Mobileye的量產(chǎn)產(chǎn)品EyeQ 3(2014年發(fā)布)一樣,都是基于40nm的制程,參數(shù)上,EyeQ 3是計(jì)算能力0.256 TOPs,功耗2.5W,而B(niǎo)PU則是計(jì)算能力1.0 TOPs,功耗1.5W;也就是說(shuō),BPU用比EyeQ 3更低的功耗實(shí)現(xiàn)了更強(qiáng)的計(jì)算能力,綜合計(jì)算后得知,后者的能效是前者的6.5倍。 

可能有人會(huì)質(zhì)疑,為什么不拿BPU 1.0跟EyeQ 4做比較?很簡(jiǎn)單,QyeQ 4是基于28nm制程的,不具有可比性。BPU 1.0跟相同制程的Eye Q3做比較,功耗上的明顯優(yōu)勢(shì),更能充分證明地平線所設(shè)計(jì)的芯片架構(gòu)(高斯架構(gòu))對(duì)降低功耗的貢獻(xiàn)。 

值得注意的是,這次發(fā)布的BPU 1.0只是地平線團(tuán)隊(duì)用不到兩年半時(shí)間搞出來(lái)的“處女作”,而EyeQ 3則是Mobileye用六年時(shí)搞出來(lái)的第三代產(chǎn)品。可見(jiàn),在某種意義上,地平線的芯片設(shè)計(jì)能力,已經(jīng)超過(guò)了Mobileye。明年,地平線將發(fā)布基于28nm制程的BPU 2.0,到時(shí),我們可以再拿它跟同樣是28nm制程的EyeQ 4做比較,相信能看到更多的驚喜。 

無(wú)人駕駛時(shí)代正在快速到來(lái),中國(guó)也將成為無(wú)人駕駛汽車(chē)最大的產(chǎn)銷(xiāo)地,遺憾的是,作為無(wú)人車(chē)“大腦的大腦”的核心芯片,一直掌握在英偉達(dá)、英特爾等國(guó)際巨頭中,中國(guó)公司在這個(gè)關(guān)鍵領(lǐng)域是缺席的。產(chǎn)業(yè)內(nèi)早就在急切地等待著“中國(guó)芯”的出現(xiàn)。 

如今,地平線攜專(zhuān)用芯片BPU“拔地而起”,在追求高性能的同時(shí),還重點(diǎn)從成本、功耗等方面入手,建立起自己的競(jìng)爭(zhēng)壁壘,從眼下看,這對(duì)中國(guó)的芯片產(chǎn)業(yè)及無(wú)人駕駛產(chǎn)業(yè)從業(yè)者都是一個(gè)極大的鼓舞;從長(zhǎng)期看,還將有望重塑全球汽車(chē)芯片、無(wú)人駕駛產(chǎn)業(yè)的競(jìng)爭(zhēng)格局。

來(lái)源:第一電動(dòng)網(wǎng)

作者:建約車(chē)評(píng)

本文地址:http://www.medic-health.cn/kol/60160

返回第一電動(dòng)網(wǎng)首頁(yè) >

收藏
63
  • 分享到:
發(fā)表評(píng)論
新聞推薦
大牛作者

建約車(chē)評(píng)

熱愛(ài)汽車(chē),熱愛(ài)自主,信奉科技,信奉市場(chǎng)。為你帶來(lái)前瞻科技和產(chǎn)業(yè)深度報(bào)道。微信號(hào): jianyuecheping

  • 252
    文章
  • 12077
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢(xún)價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->