資源描述:
《人工智能歷經(jīng)風(fēng)雨,AI專用芯片成藍(lán)海.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、人工智能歷經(jīng)風(fēng)雨,AI專用芯片成藍(lán)海人工智能歷經(jīng)風(fēng)雨,AI專用芯片成藍(lán)?! ≌?0年前多媒體應(yīng)用及3D游戲蓬勃發(fā)展倒逼顯卡硬件升級一樣,互聯(lián)網(wǎng)大數(shù)據(jù)的興起對超算芯片提出了新的需求。 事實上,AI界的泰斗,加拿大多倫多大學(xué)的Hiton教授早在2006年就提出了深度學(xué)習(xí)的概念,淺層學(xué)習(xí)算法更是早在上世紀(jì)80年代就為學(xué)術(shù)界所廣泛認(rèn)可。之所以最近幾年該領(lǐng)域應(yīng)用才逐漸升溫,是因為AI的發(fā)展離不開兩方面的支持,大數(shù)據(jù)和計算資源。 一、從“深藍(lán)”到“AlphaGO”,人工智能走過二十年 距離1996年
2、“深藍(lán)”大戰(zhàn)卡斯帕羅夫整整20年后,“AlphaGO”再次通過人機(jī)對戰(zhàn)的形式為人工智能的發(fā)展歷史添上了濃重一筆。站在今天,我們可以笑言那曾經(jīng)令人瞠目結(jié)舌的“深藍(lán)”實際上只是一個運行于超級計算機(jī)上的一個很棒的國際象棋程序,而為了支撐這個程序,IBM團(tuán)隊打造了一臺重1.2噸、配備480顆國際象棋專用芯片的龐然大物。 不同于“深藍(lán)”依靠超強(qiáng)運算能力所采取的遍歷搜索策略,“AlphaGO”的設(shè)計中融入了近年來取得顯著進(jìn)展的深度學(xué)習(xí)算法。深度學(xué)習(xí)之所以被稱為“深度”,是相對前向誤差反饋神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
3、淺層學(xué)習(xí)算法而言。后者的局限性在于有限樣本和計算單元情況下,對復(fù)雜函數(shù)的表示能力有限,且需要依靠人工經(jīng)驗抽取樣本特征。深度學(xué)習(xí)算法則通過構(gòu)建一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu)來實現(xiàn)復(fù)雜函數(shù)逼近及自動特征提取,具有強(qiáng)大的從少數(shù)樣本集中挖掘數(shù)據(jù)統(tǒng)計規(guī)律的能力?! ≡诨谏疃葘W(xué)習(xí)方法的人臉識別領(lǐng)域,2014年,F(xiàn)acebook公司的DeepFace項目以及香港中文大學(xué)的DeepID項目在戶外人臉識別數(shù)據(jù)庫上的識別正確率分別達(dá)到97.45%和97.35%,幾乎可以比肩人類97.5%的識別率。此外,在圖像分類、自然語音識
4、別等領(lǐng)域,深度學(xué)習(xí)也已證明了其無可比擬的優(yōu)勢,特別是在現(xiàn)存最復(fù)雜的完全信息博弈之一的圍棋上的成功,說明該算法還大有潛力可挖?! £P(guān)于AlphaGO還有個不為人知的小插曲。在對戰(zhàn)李世石之前,AlphaGO曾于2016年1月以5:0的懸殊比分完勝歐洲圍棋冠軍樊麾二段。旁觀的李世石在比賽結(jié)束后表示有信心捍衛(wèi)人類在棋類運動上最后的榮譽(yù)。然而短短的一個月時間內(nèi),Google將AlphaGO的核心運算單元從CPUGPU換成了專門的深度學(xué)習(xí)芯片。于是,我們看到了“石佛”尷尬的笑容和發(fā)抖的手指?! 《⒚撾x硬件
5、支持,深度學(xué)習(xí)只能是“屠龍之技” 事實上,AI界的泰斗,加拿大多倫多大學(xué)的Hiton教授早在2006年就提出了深度學(xué)習(xí)的概念,淺層學(xué)習(xí)算法更是早在上世紀(jì)80年代就為學(xué)術(shù)界所廣泛認(rèn)可。之所以最近幾年該領(lǐng)域應(yīng)用才逐漸升溫,是因為AI的發(fā)展離不開兩方面的支持,大數(shù)據(jù)和計算資源。 深度學(xué)習(xí)模型需要通過大量的數(shù)據(jù)訓(xùn)練才能獲得理想的效果。以語音識別問題為例,僅在其聲學(xué)建模部分,算法就面臨著十億到千億級別的訓(xùn)練樣本。在這種情況下,只有表達(dá)能力強(qiáng)的數(shù)學(xué)模型才能夠充分發(fā)掘海量數(shù)據(jù)中蘊藏的豐富信息。相應(yīng)地,海量數(shù)據(jù)
6、的運算處理也必須有強(qiáng)大的計算資源作為支撐?! ∨e個毫不夸張的例子,今天的計算機(jī)一個中小型網(wǎng)絡(luò)的訓(xùn)練需要一天時間,可能使用20年前的計算機(jī)需要近20年才能完成。因此,即便深度學(xué)習(xí)算法早20年誕生,沒有硬件匹配也只能是屠龍之技。而即便是今天,AI相關(guān)硬件的發(fā)展仍遠(yuǎn)落后于軟件算法。一方面,AI界的算法大牛實在太多,甩開摩爾定律數(shù)十年來筆耕不輟地升級著軟件;另一方面,當(dāng)前執(zhí)行深度學(xué)習(xí)算法的主流方式是采用GPU芯片,為深度學(xué)習(xí)算法專門定制的芯片還遠(yuǎn)沒有形成規(guī)模。雖然從架構(gòu)上看,GPU相比CPU更有效率,但是離
7、最優(yōu)還相距甚遠(yuǎn)。而且GPU功耗驚人,很難委身于移動終端,更遑論物聯(lián)網(wǎng)應(yīng)用?! ∪?、云端“高吞吐”,本地“小快靈” 目前的AI應(yīng)用主要分為用于服務(wù)器端和用于移動終端兩大類。服務(wù)器端的負(fù)責(zé)AI算法的芯片一方面要支持盡可能多的網(wǎng)絡(luò)結(jié)構(gòu)以保證算法的正確率和泛化能力;另一方面必須支持高精度浮點數(shù)運算,峰值性能至少要達(dá)到Tflops(每秒執(zhí)行10次浮點數(shù)運算)級別,所以功耗非常大(》200W);而且為了能夠提升性能必須支持陣列式結(jié)構(gòu)(即可以把多塊芯片組成一個計算陣列以加速運算)。由于服務(wù)器端的AI芯片必須
8、兼顧通用性,因此性能優(yōu)化無法做到量體裁衣,只能做一些宏觀的優(yōu)化?! ‖F(xiàn)有的主流服務(wù)器端的硬件加速器以圖形處理器和現(xiàn)場可編程邏輯門陣列為主。GPU具有強(qiáng)大的浮點運算能力,因此除圖像處理的本職工作外,被廣泛應(yīng)用于科學(xué)計算、密碼破解、數(shù)值分析,海量數(shù)據(jù)處理等需要大規(guī)模并行計算的領(lǐng)域。與GPU相比,F(xiàn)PGA器件雖然在計算運行速度上與ASIC芯片有所差距,產(chǎn)品更新?lián)Q代的速度也要慢于GPU芯片;但是功耗僅僅是GPU的1/10,并且還可以通過重配置對目標(biāo)應(yīng)用進(jìn)行最大限度的優(yōu)化。除了