【第一電動(dòng)網(wǎng)】(專欄作者 夏珩)為期一周的人機(jī)世紀(jì)大戰(zhàn)最終以谷歌人工智能圍棋手AlphaGo四勝一負(fù)完勝人類世界圍棋冠軍李世石9段落下帷幕,引發(fā)了全人類對人工智能的關(guān)注狂潮。 AlphaGo(阿爾法狗)的強(qiáng)勁表現(xiàn)令科技界產(chǎn)業(yè)界為之振奮, 而未來其所代表的人工智能(AI, artificial intelligence)技術(shù)在智能駕駛等領(lǐng)域的發(fā)展則更加讓我們期待。 為什么這樣說?我們從兩個(gè)方面來聊一聊。
第一是深度學(xué)習(xí),從大數(shù)據(jù)中學(xué)習(xí)發(fā)掘規(guī)律。 AlphaGo和李世石對弈, 都是在決定下一個(gè)子落在哪里的問題。 一個(gè)19*19的棋盤最多就有了361種選擇。 而最終的勝負(fù)是由這幾步、幾十步、甚至上百步?jīng)Q定的。 所以圍棋是典型的動(dòng)態(tài)決策系統(tǒng), 每一步都影響了后面的結(jié)局,每下一步我們都不得不去考慮接下來的幾步應(yīng)該是怎么樣的, 這一步落子對后面有什么影響。 這也就是咱們說的棋盤推演。若是由電腦來做推演, 去考慮落子的各種可能性,從中選出最有勝算的一招,那人還有勝算嗎? 1997年‘深藍(lán)’就是利用類似的‘窮舉法’打敗了當(dāng)時(shí)的國際象棋世界冠軍卡斯帕羅夫。圍棋難就難在它的變化太多, 復(fù)雜度太高了,和國際象棋完全不在一個(gè)數(shù)量級, 就算是讓深藍(lán)用上當(dāng)今最快速的硬件去硬算圍棋的棋盤推演, 深藍(lán)也只能對你說臣妾做不到呀。
人機(jī)世紀(jì)對決(圖片來源于網(wǎng)絡(luò))
人比‘深藍(lán)’高明的一點(diǎn)就是棋感。 人根據(jù)棋局評感覺, 而不必做細(xì)致的棋盤推演, 就能大概篩選出一些較好的選擇; 對于走一步之后的局面, 人能大概判斷出是贏面大還是輸面大。所以人就避免了窮舉棋盤推演, 只需針對少量的選擇做些有效的搜索即能做出落子判斷。 從決策規(guī)劃的角度考慮, 這就好比把一個(gè)動(dòng)態(tài)規(guī)劃的問題用近似動(dòng)態(tài)規(guī)劃(ADP)的方法解決了。而對棋局的簡單有效的評估就類似ADP中的value function(價(jià)值函數(shù)), 落子的傾向性選擇類似ADP中的heuristics(試探法)。這種valuefunction和heuristics就是圍棋中的規(guī)律。 AlphaGo的成功就在于它的算法中包含了這兩個(gè)規(guī)律,而不僅僅是野蠻搜索。它的規(guī)律是通過機(jī)器學(xué)習(xí)獲得的, 這就是AlphaGo背后的兩大技術(shù)本質(zhì):大數(shù)據(jù)和深度學(xué)習(xí)。通過學(xué)習(xí)幾千萬局的對弈過程數(shù)據(jù),訓(xùn)練后的人工神經(jīng)網(wǎng)絡(luò)中固化了優(yōu)秀棋手的落子傾向和對局面的判斷能力。 這樣在實(shí)時(shí)的人機(jī)對弈過程中, 其所需要搜索的空間范圍已經(jīng)收縮到一個(gè)可計(jì)算的范圍內(nèi), 最終選定最佳落子。 而深度學(xué)習(xí)持續(xù)不斷的學(xué)習(xí)對弈數(shù)據(jù), 使AlphaGo始終保持進(jìn)步。
二是數(shù)據(jù)、學(xué)習(xí)與互連,讓AI做你的智能駕駛司機(jī)。AlphaGo的勝利只是針對一個(gè)博弈游戲,但是AlphaGo的算法是通用的機(jī)器學(xué)習(xí)算法,而不是特定于圍棋一種應(yīng)用,所以真正有意義的是人工智能已經(jīng)在影響技術(shù)領(lǐng)域。 AlphaGo經(jīng)過學(xué)習(xí)打敗了圍棋世界冠軍, 那么AI技術(shù)用在汽車領(lǐng)域呢?人工智能駕駛會不會成為世界上最優(yōu)秀的司機(jī)? 當(dāng)前不是, 但是這個(gè)進(jìn)程已經(jīng)開始。
人就是智能駕駛的老師, 每天的行駛數(shù)據(jù)(路況, 地圖, 交通信息, 駕駛員的操作)中包含著駕駛和交通的規(guī)律。AI技術(shù)通過學(xué)習(xí)這些大數(shù)據(jù)就能掌握人所掌握的規(guī)律。特斯拉(Tesla) 的Autopilot 1.01就已經(jīng)具備了學(xué)習(xí)的功能。特斯拉的用戶們已經(jīng)報(bào)道了他們的汽車每天的變化, 一開始不能很好保持在彎道行駛上的特斯拉汽車,漸漸地學(xué)會了在彎道上減慢車速從而實(shí)現(xiàn)車道保持。
而這種學(xué)習(xí)更大的力量在于它可以不僅是一輛車的學(xué)習(xí), 更可以是所有的特斯拉汽車的共同學(xué)習(xí)。 汽車已經(jīng)有了互連網(wǎng)絡(luò)的屬性,駕駛數(shù)據(jù)從每一輛汽車傳輸?shù)皆贫耍?所以是一個(gè)群體去訓(xùn)練同一個(gè)機(jī)器大腦。 這一點(diǎn)是比人腦更有優(yōu)勢的地方, 一個(gè)人的學(xué)習(xí)只能依靠自己的數(shù)據(jù), 而機(jī)器學(xué)習(xí)卻能從所有人的數(shù)據(jù)中去發(fā)現(xiàn)規(guī)律,從而有望學(xué)習(xí)到最全面的駕駛規(guī)律, 超越每一個(gè)個(gè)體。 并且這種學(xué)習(xí)成果的分享性更是人類所不能及。 云端的AI可推送到每一個(gè)汽車中,實(shí)現(xiàn)數(shù)據(jù)的閉環(huán)。所以以后的汽車應(yīng)該是具備本地學(xué)習(xí)能力以及互連群體學(xué)習(xí)的功能。 目前能提供這種基礎(chǔ)構(gòu)架的例如NVIDIA發(fā)布的PX2車載終端, 其每秒可進(jìn)行24萬億次深度學(xué)習(xí)計(jì)算。 我們小鵬汽車在設(shè)計(jì)之初就考慮了這種需求方向,智能與互連是我們的屬性, 汽車-數(shù)據(jù)-網(wǎng)絡(luò)-后臺, 系統(tǒng)的框架能夠讓AI今后在我們的汽車上發(fā)揮作用。
機(jī)器學(xué)習(xí)甚至意味著能夠發(fā)現(xiàn)人類駕駛數(shù)據(jù)中沒有包含的規(guī)律。 好比AlphaGo通過左右互搏,產(chǎn)生大量新的對弈數(shù)據(jù),通過加強(qiáng)學(xué)習(xí)(reinforce learning)刺激AlphaGo發(fā)現(xiàn)更優(yōu)的圍棋路數(shù)。在智能駕駛領(lǐng)域, 通過仿真交通場景, 讓AI自己去發(fā)現(xiàn)智能駕駛的問題與局限, 今其產(chǎn)生更好的規(guī)劃、決策和執(zhí)行。
智能駕駛技術(shù)的成熟尚需時(shí)日, 正如人工智能技術(shù)本身同樣處于快速發(fā)展中一樣。 越來越多的技術(shù)會最終應(yīng)用于智能汽車, 通過學(xué)習(xí)不斷提高駕駛水平,帶來更加安全更加極致的駕駛體驗(yàn)。
我們的司機(jī)是AI, 這一天終會到來,我們也會盡情的享受這種變革給我們帶來的便利,而不會再覺得是被碾壓了。
作者系小鵬汽車總裁
來源:第一電動(dòng)網(wǎng)
作者:夏珩
本文地址:http://www.medic-health.cn/kol/42653
本文由第一電動(dòng)網(wǎng)大牛說作者撰寫,他們?yōu)楸疚牡恼鎸?shí)性和中立性負(fù)責(zé),觀點(diǎn)僅代表個(gè)人,不代表第一電動(dòng)網(wǎng)。本文版權(quán)歸原創(chuàng)作者和第一電動(dòng)網(wǎng)(www.medic-health.cn)所有,如需轉(zhuǎn)載需得到雙方授權(quán),同時(shí)務(wù)必注明來源和作者。
歡迎加入第一電動(dòng)網(wǎng)大牛說作者,注冊會員登錄后即可在線投稿,請?jiān)跁T資料留下QQ、手機(jī)、郵箱等聯(lián)系方式,便于我們在第一時(shí)間與您溝通稿件,如有問題請發(fā)送郵件至 content@d1ev.com。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。