汽車(chē)產(chǎn)業(yè)已經(jīng)“死氣沉沉”好久了,與“一年一小變,三年一大變”的互聯(lián)網(wǎng)產(chǎn)業(yè)相比,過(guò)去的幾十年來(lái),它都沒(méi)有發(fā)生多少顛覆性的變化。然而,三十年河?xùn)|,三十年河西,在即將到來(lái)的自動(dòng)駕駛時(shí)代,汽車(chē)產(chǎn)業(yè)或?qū)⒊蔀榛ヂ?lián)網(wǎng)產(chǎn)業(yè)“羨慕嫉妒恨”的對(duì)象。
我們?nèi)绱丝春闷?chē)產(chǎn)業(yè)在自動(dòng)駕駛時(shí)代的前進(jìn)速度,并不是因?yàn)槠?chē)制造商掌握了什么絕技,而是自動(dòng)駕駛系統(tǒng)所使用的核心芯片,正在以遠(yuǎn)超”摩爾定律“的速度孜孜不倦地自我迭代著。
促使我們注意到自動(dòng)駕駛芯片這種“進(jìn)取心”的,是英偉達(dá)于10月11日發(fā)布的L5級(jí)無(wú)人駕駛計(jì)算平臺(tái)Drive PX Pegasus。對(duì)這款Drive PX Pegasus,如果用兩個(gè)字評(píng)價(jià),那就是“牛逼”;用四個(gè)字評(píng)價(jià),就是“相當(dāng)牛逼”。要想知道它究竟有多牛逼,還得先跟英偉達(dá)的現(xiàn)有產(chǎn)品做個(gè)比較——目前,特斯拉的Autopilot 2.0上使用的Drive PX 2每秒鐘可完成24萬(wàn)億次深度學(xué)習(xí)計(jì)算操作,而Drive PX Pegasus每秒鐘可完成的深度計(jì)算操作是320萬(wàn)億次!也就是說(shuō),在深度學(xué)習(xí)計(jì)算這個(gè)最重要的能力上,Drive PX Pegasus比Drive PX 2強(qiáng)出12倍還多!
從發(fā)布時(shí)間上看,Drive PX Pegasus比在2016年1月份的CES展上亮相的Drive PX 2晚了21個(gè)月。21個(gè)月計(jì)算能力增強(qiáng)12倍,這算是徹底震撼了“摩爾定律”——根據(jù)摩爾定律,21個(gè)月以?xún)?nèi)計(jì)算性能翻一倍才是“正?!钡?。
再回過(guò)頭去看從Drive PX 到Drive PX 2的進(jìn)步,時(shí)間跨度是從2015年1月份到2016年1月份,剛剛12個(gè)月;而在這12個(gè)月里,英偉達(dá)無(wú)人駕駛計(jì)算平臺(tái)的計(jì)算能力也是進(jìn)步了10倍(深度學(xué)習(xí)計(jì)算性能從2.3萬(wàn)億次/秒增長(zhǎng)到24萬(wàn)億次/秒)! 這個(gè)進(jìn)步速度,仍然是超出了摩爾定律的“解釋能力”。
也難怪,英偉達(dá)創(chuàng)始人黃仁勛曾多次在公開(kāi)場(chǎng)合說(shuō)“摩爾定律已死”。不過(guò),與此前很多IT界人士質(zhì)疑“摩爾定律是否已經(jīng)過(guò)時(shí)”是暗指芯片性能的進(jìn)步速度正在放緩不同的是,黃仁勛所說(shuō)的”摩爾定律已死“,意思是,在AI時(shí)代,GPU的進(jìn)步速度要超過(guò)在摩爾定律下CPU的進(jìn)步速度。
GPU換代周期縮短,增長(zhǎng)倍率變大
從24萬(wàn)億次/秒到320萬(wàn)億次/秒,Drive PX Pegasus的深度學(xué)習(xí)能力已經(jīng)是誕生于21個(gè)月之前的“上一代”的13.3倍;與更早的Drive PX的相比,在不到3年的時(shí)間里,它的性能已經(jīng)增長(zhǎng)了將近140倍!
或許,有細(xì)心的人要質(zhì)疑了:摩爾定律說(shuō)的是芯片的計(jì)算能力,可你這里提到的Drive PX系列無(wú)人駕駛計(jì)算平臺(tái),都是集成產(chǎn)品,而非“原始芯片”,因此不能拿它的“進(jìn)步曲線”來(lái)跟摩爾定律做比較。 這個(gè)質(zhì)疑是有道理的,不過(guò),我正想補(bǔ)充的是,Drive PX系列的計(jì)算性能“每一代比上一代進(jìn)步10倍”,除去CPU的配置顯著提升外,更關(guān)鍵的原因正是它們所用的GPU的性能也提升了大約10倍!
GPU的計(jì)算性能與其在設(shè)計(jì)時(shí)采用的架構(gòu)模式高度相關(guān)。Drive PX采用的GPU是基于Maxwell的TeslaM40;Drive PX 2采用的GPU是基于Pascal的TeslaP100;Drive PX Pegasus采用的GPU有兩顆是基于Volta的TeslaV100(上表中提到的Xavier,是在TeslaV100的基礎(chǔ)上集成而來(lái)的Soc),還有兩顆是尚未發(fā)布的繼Volta之后的“下一代”。
從上表可見(jiàn),從2013年12月至2015年12月這兩年,GPU的提升速度很慢,甚至,與前代相比,TeslaM40在某些單項(xiàng)指標(biāo)上還出現(xiàn)了嚴(yán)重倒退。但在TeslaM40之后,GPU的更新明顯加快——代際更新周期通常為6-12個(gè)月,計(jì)算性能的進(jìn)步倍率通常在1.5倍左右。如果把周期延長(zhǎng)到18個(gè)月,TeslaV100相比于TeslaM40,晶體管數(shù)增長(zhǎng)至后者的2.6倍,顯存帶寬增長(zhǎng)至后者的3.1倍,單精度浮點(diǎn)計(jì)算性能超過(guò)后者的2倍。
各單項(xiàng)指標(biāo)的進(jìn)步組合在一起后,在“乘數(shù)效應(yīng)”的作用下,據(jù)英偉達(dá)方面曾在2016年的發(fā)布會(huì)上宣稱(chēng),從TeslaM40到TeslaP100,GPU的整體性能提升了大約10倍;此外,據(jù)專(zhuān)注于人工智能的科技媒體雷鋒網(wǎng)早先的報(bào)道,相比于基于Pascal架構(gòu)的TelsaP100,基于Volta的TelsaV100將深度學(xué)習(xí)訓(xùn)練速度提升了12倍、深度學(xué)習(xí)推理速度也提升了6倍,綜合性能提升也在10倍以上。
6-12個(gè)月,芯片(GPU)的新能就曾提升10倍,實(shí)在可怕!由于GPU基本上是英偉達(dá)的天下,在這里,恐怕已經(jīng)有一個(gè)“黃仁勛定律”了吧?IT界的其他人困惑“如果摩爾定律消失,我們?cè)摵稳ズ螐摹钡臅r(shí)候,大多充滿(mǎn)了憂慮,而黃仁勛在說(shuō)“摩爾定律太老了,太慢了,GPU才是全新的‘超級(jí)摩爾定律’”的時(shí)候,應(yīng)該是志得意滿(mǎn)的吧?——言外之意是,屬于英特爾的時(shí)代已成為過(guò)去,屬于我黃仁勛的時(shí)代正在到來(lái)。
作為佐證的是,9月27日上午,在NVIDIA全球GTC北京站上,黃仁宇特別強(qiáng)調(diào):“我們不會(huì)做那些每一次好一點(diǎn)點(diǎn)的通用性的處理器(CPU),而是要做在一些專(zhuān)門(mén)的領(lǐng)域,性能極好的處理器(GPU)?!?在黃仁勛眼里,摩爾定律下CPU性能的“每18-24個(gè)月翻倍”居然只是“每次只好一點(diǎn)點(diǎn)”,這是在公然羞辱英特爾嗎?
宿敵的芯片也遵循“黃仁勛定律”
對(duì)黃仁勛反復(fù)“鄙視”摩爾定律并“詛咒”它“已死”,作為摩爾定律的“既得利益者”的英特爾,肯定會(huì)回復(fù)一個(gè)大大的“不服”,然后,再連加三個(gè)“感嘆號(hào)”。
9月19日,在北京舉行的“英特爾精尖制造日“活動(dòng)上,英特爾向公眾展示了10nm晶圓,并透露他們已經(jīng)前瞻到了5nm制程。通過(guò)展示這些看家本領(lǐng),英特爾旨在強(qiáng)調(diào)“摩爾定律不僅沒(méi)有過(guò)時(shí),而是一直在向前發(fā)展’。
不過(guò),嘴硬歸嘴硬,眼睜睜地看著昔日的“小屁孩”英偉達(dá)的股票一年漲了2倍、兩年漲了8倍,曾經(jīng)“一統(tǒng)江湖”的英特爾一定是很焦慮的。它已經(jīng)錯(cuò)過(guò)了移動(dòng)互聯(lián)網(wǎng)時(shí)代,不能再錯(cuò)過(guò)AI時(shí)代了。英特爾在2016年以167億美元收購(gòu)世界第二大FPGA公司Altera、在2017年以153億美元收購(gòu)全球第一大ADAS供應(yīng)商Mobileye,正是為了應(yīng)對(duì)這種焦慮。
在AI領(lǐng)域,F(xiàn)PGA因具有“可編程”、靈活性強(qiáng)及功耗低的特性,在某些方面具備跟GPU一爭(zhēng)高下的能力。然而,從“代際更新“的角度看,F(xiàn)PGA仍然跳不出摩爾定律的”局限性“。
下圖為英特爾旗下Soc FPGA產(chǎn)品的Arria 系列
Arria 系列Soc FPGA芯片在更新?lián)Q代時(shí),仍然遵循了“每18-24個(gè)月計(jì)算性能翻一倍”的老規(guī)律。
不過(guò),英特爾的另一個(gè)孩子Mobileye所造的芯片,在進(jìn)步速度上卻“很爭(zhēng)氣”。
Mobileye生產(chǎn)的EyeQ系列芯片,是為自動(dòng)駕駛汽車(chē)的ADAS系統(tǒng)專(zhuān)用的,其中,EyeQ3曾經(jīng)用在特斯拉的Autopilot 1.0上。Mobileye很能沉得住氣,在這個(gè)熱錢(qián)與泡沫齊飛的浮躁年代里,它卻堅(jiān)持“八年磨一劍”,自1999年成立后就一直踏踏實(shí)實(shí)做研究,直到2007年才發(fā)布了第一款擁有ADAS的芯片EyeQ1。但他的芯片一經(jīng)發(fā)布,就開(kāi)始了“指數(shù)級(jí)成長(zhǎng)”。
下圖為Mobileye EyeQ系列芯片的“迭代”路徑:
從EyeQ1到EyeQ2,芯片的計(jì)算新能在14個(gè)月內(nèi)增長(zhǎng)至原先的6倍,遠(yuǎn)遠(yuǎn)超出摩爾定律;
從EyeQ2到EyeQ3,計(jì)算能力在5年里增長(zhǎng)至原先的10倍,雖然速度變慢,但跟摩爾定律相比并不算太遜色(按摩爾定律,24個(gè)月翻一倍的話,應(yīng)該是48個(gè)月翻兩番,計(jì)算能力增長(zhǎng)至原來(lái)的4倍,或者,18個(gè)月翻一番,應(yīng)該是54個(gè)月翻三番,增長(zhǎng)至原來(lái)的8倍);
從EyeQ3到EyeQ4,計(jì)算能力在兩年內(nèi)增長(zhǎng)至原先的10倍;
從EyeQ4到EyeQ5,計(jì)算能力再在1年內(nèi)增長(zhǎng)至原先的將近5倍......
這些都說(shuō)明,雖然英特爾和Mobileye長(zhǎng)期以來(lái)都視英偉達(dá)為勁敵,但它自家產(chǎn)品的進(jìn)化,卻依然得遵守了“黃仁勛定律”。
在收購(gòu)Mobileye之前(2016年8月),英特爾曾以4.08億美元收購(gòu)了AI芯片創(chuàng)業(yè)公司Nervana Systems,并聲稱(chēng)將在2020年之前將深度學(xué)習(xí)訓(xùn)練速度提升100倍。在摩爾定律主宰的“舊時(shí)代”里待久了的人,可能會(huì)覺(jué)得“提升100倍”是吹牛逼,但在AI時(shí)代的“黃仁勛定律”下,三年提升100倍,其實(shí)不是多困難的事情——
因?yàn)椋?*6*6=216,再不濟(jì),也可以通過(guò)5*5*5=125來(lái)提前實(shí)現(xiàn)目標(biāo)。
TPU:速度已經(jīng)很牛逼,但加速度還需努力
很早之前,谷歌就意識(shí)到GPU更適合訓(xùn)練,卻不善于做訓(xùn)練后的分析決策,因此,它得自己開(kāi)發(fā)一款專(zhuān)門(mén)用于做分析決策的AI芯片。在低調(diào)使用了一兩年后,在2016年5月份召開(kāi)的Google I/O大會(huì)上,這款專(zhuān)用芯片TUP終于閃亮登場(chǎng)了。
谷歌聲稱(chēng)TPU(以下簡(jiǎn)稱(chēng)TPU 1)的運(yùn)算速度“比當(dāng)前CPU和GPU快15-30倍”,但很快遭到黃仁勛及其擁護(hù)者的“打臉”,他們紛紛表示,谷歌是拿自己新出的產(chǎn)品跟英偉達(dá)兩年前的舊產(chǎn)品TeslaK80做比較,不太厚道。甚至,直到谷歌在2017年推出新一代TPU即TPU2時(shí),英偉達(dá)方面也稱(chēng),他家的最新款GPU Tesla2V100在計(jì)算性能可以秒殺TPU2。
尺有所長(zhǎng),寸有所短,TPU是滿(mǎn)足特殊功能的專(zhuān)用芯片,那它去跟GPU做PK,似乎也不太妥當(dāng)。現(xiàn)在,我們放下這種不同產(chǎn)品之間的橫向比較,只在同種產(chǎn)品的代際間做縱向比較。
別的不說(shuō),就看最重要的計(jì)算能力:TPU 1每秒可提做23萬(wàn)億次16位整數(shù)的運(yùn)算提,TPU 2可以達(dá)到每秒45萬(wàn)億次的浮點(diǎn)運(yùn)算。計(jì)算能力只增長(zhǎng)了一倍。
TPU 1的開(kāi)發(fā)時(shí)間為2013年前后,TUP 2的開(kāi)發(fā)時(shí)間暫無(wú)可查詢(xún)。如果TPU 2的開(kāi)發(fā)時(shí)間在2015年之前,TPU 1到 TPU 2,芯片計(jì)算能力的提升幅度,剛好在摩爾定律的范圍內(nèi),或者,比摩爾定律稍微快一點(diǎn),但也沒(méi)有明顯優(yōu)勢(shì);但如果TPU 2的開(kāi)發(fā)時(shí)間在2015年之后,那么,從TPU 1到 TPU 2,芯片計(jì)算能力的進(jìn)步速度是落后于摩爾定律中的速度的。
盡管谷歌口口聲聲稱(chēng)自己的TPU比GPU“快得多”,但在加速度方面,它充其量只能跟摩爾定律下的CUP相比,跟GPU和EyeQ的計(jì)算能力“每12-24個(gè)月翻10倍”的加速度相比,它還是慢了很多。
在“黃仁勛定律“下,芯片的架構(gòu)研究很重要
最近,無(wú)人駕駛初創(chuàng)公司地平線創(chuàng)始人余凱在新智元舉辦的一次論壇演講中談到“新摩爾定律”?!白罱蠹乙舶l(fā)現(xiàn)在物理上面,可能摩爾定律已經(jīng)在逼近它的物理極限,英特爾本身自己也在減少自己往前遞進(jìn)的速度。這里打一個(gè)問(wèn)號(hào),我們?cè)趺礃颖3帜柖???/p>
余凱自己給出的答案是:實(shí)際上還是可以做到的,手段不是通過(guò)物理上的工藝提升,而是通過(guò)軟件算法的變革帶來(lái)研發(fā)一些新的架構(gòu)。隨著摩爾定律越來(lái)越接近工藝極限,芯片的架構(gòu)設(shè)計(jì)變得越來(lái)越重要。
“如果能研發(fā)出新的架構(gòu),在特定的目標(biāo)應(yīng)用場(chǎng)景上面,我們還能不斷地往前發(fā)展。打個(gè)比方,我們?nèi)祟?lèi)的大腦實(shí)際上是有通用處理器的部分。有很多專(zhuān)用的硬件,比如聽(tīng)覺(jué)的、視覺(jué)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括有研究在三年前發(fā)現(xiàn)了在人腦里面有一個(gè)地方是專(zhuān)門(mén)用來(lái)做定位的。就是說(shuō),因?yàn)樘厥饽康娜ザx的這個(gè)硬件,使得你對(duì)特定的問(wèn)題效率可以更高,新的摩爾定律可以繼續(xù)往前奔跑,這個(gè)是新的摩爾定律?!?/p>
余凱這里所說(shuō)的”新摩爾定律“,實(shí)際上就是本文在前面提到的”黃仁勛定律“。而他所說(shuō)的通過(guò)”研發(fā)新架構(gòu)“來(lái)改變進(jìn)步速度,恰恰可以從英偉達(dá)的GPU隨著架構(gòu)從Kepler—Maxwell—Pascal—Volta改變,GPU的整體性能也飛速進(jìn)步中得到印證。
一點(diǎn)疑問(wèn)
前文討論“摩爾定律”和“黃仁勛定律”,都是單從產(chǎn)品性能、技術(shù)進(jìn)步的角度談,卻回避了價(jià)格的問(wèn)題。摩爾定律的一個(gè)前提是“價(jià)格不變”,但AI芯片在更新?lián)Q代時(shí),價(jià)格往往會(huì)有很大的提升,比如,GUP TeslaP100發(fā)布時(shí)的價(jià)格是1萬(wàn)美元,而 TeslaV100的價(jià)格則是14.9萬(wàn)美元,完全不在一個(gè)量級(jí)。
從以往的規(guī)律看,新開(kāi)發(fā)芯片的可以通過(guò)出貨量的增長(zhǎng)降下了,只是,不太確定,TeslaV100從天價(jià)降到“平民價(jià)”,需要達(dá)到怎樣的出貨規(guī)模才可以實(shí)現(xiàn)?需要等待的周期是多長(zhǎng)?
來(lái)源:第一電動(dòng)網(wǎng)
作者:建約車(chē)評(píng)
本文地址:http://www.medic-health.cn/kol/57709
本文由第一電動(dòng)網(wǎng)大牛說(shuō)作者撰寫(xiě),他們?yōu)楸疚牡恼鎸?shí)性和中立性負(fù)責(zé),觀點(diǎn)僅代表個(gè)人,不代表第一電動(dòng)網(wǎng)。本文版權(quán)歸原創(chuàng)作者和第一電動(dòng)網(wǎng)(www.medic-health.cn)所有,如需轉(zhuǎn)載需得到雙方授權(quán),同時(shí)務(wù)必注明來(lái)源和作者。
歡迎加入第一電動(dòng)網(wǎng)大牛說(shuō)作者,注冊(cè)會(huì)員登錄后即可在線投稿,請(qǐng)?jiān)跁?huì)員資料留下QQ、手機(jī)、郵箱等聯(lián)系方式,便于我們?cè)诘谝粫r(shí)間與您溝通稿件,如有問(wèn)題請(qǐng)發(fā)送郵件至 content@d1ev.com。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。