英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc

英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc

ID:28135291

大小:662.50 KB

頁數(shù):7頁

時間:2018-12-08

英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc_第1頁
英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc_第2頁
英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc_第3頁
英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc_第4頁
英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc_第5頁
資源描述:

《英偉達GPU 對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、英偉達GPU對戰(zhàn)谷歌TPU,英偉達是否還能堅守陣地  英偉達一直占據(jù)著深度學(xué)習(xí)數(shù)據(jù)中心業(yè)務(wù)上的主導(dǎo)地位,特別是它的K40是最先應(yīng)用于深度學(xué)習(xí)的首批GPU之一,在時代的發(fā)展過程中,之前一直沒有人可以撼動它的地位,如今,谷歌推出TPU,是否會給英偉達造成俱到的威脅?! ∫荒甑臅r間,股價增長兩倍以上,創(chuàng)始人成為《財富》雜志2017年度商業(yè)人物,這家公司就是風(fēng)頭正勁英偉達(NVIDIA)。在多年的耕耘之后,英偉達的憑借著先發(fā)優(yōu)勢和快速迭代在AI時代迅速崛起。如今,英偉達的GPU幾乎壟斷了AI芯片市場,著實讓人眼紅。不過

2、,大部分公司都不希望自己的命脈掌控在別人手中,于是谷歌推出了TPU,然后其他公司紛紛效仿,開始研發(fā)類似的深度學(xué)習(xí)專用芯片。那么類似TPU這種的專用芯片真的能對英偉達的GPU產(chǎn)生威脅嗎?  近日,ARKInvest的分析師JamesWang撰文對這個問題進行了全面剖析,AI科技大本營對全文進行了不改變原意的翻譯,希望能給讀者,給整個行業(yè)一點啟發(fā)?! ∵^去兩年間,深度學(xué)習(xí)的熱潮使英偉達的數(shù)據(jù)中心業(yè)務(wù)增長了五倍,同時也催生了行業(yè)競爭。截至2017年,以打造深度學(xué)習(xí)專用芯片為目標的創(chuàng)業(yè)公司已有十幾家。除此之外,Alph

3、abet(谷歌母公司)、英特爾、高通、蘋果等一票大型上市科技公司也在計劃進入深度學(xué)習(xí)芯片市場?!   ≡谌找婕觿〉母偁幭?,英偉達還能在深度學(xué)習(xí)芯片市場中保持領(lǐng)先地位嗎?哪個新來者最有可能獲得成功?  GPUvs.TPU  目前的競爭主要集中在TPU(張量處理單元)領(lǐng)域,這是一種用于加速張量運算的新型芯片,深度學(xué)習(xí)算法的核心工作負載就是張量運算。Alphabet、英特爾、WaveCompuTIng聲稱,TPU在執(zhí)行深度學(xué)習(xí)算法時要比GPU快十倍。對此差距的一種解釋是,GPU主要是為處理圖像而設(shè)計的,芯片中的很大一

4、部分執(zhí)行單元并不參與深度學(xué)習(xí)運算。以英偉達最新的VoltaGPU為例,在GPU核心(如下圖所示)中,只有右側(cè)的兩個張量核心(TensorCores)負責(zé)執(zhí)行深度學(xué)習(xí)運算,左側(cè)的執(zhí)行單元要么很少使用,要么不太適合進行深度學(xué)習(xí)運算。而新成立的深度學(xué)習(xí)創(chuàng)業(yè)公司造出的芯片則似乎完全由張量核心和晶載內(nèi)存(on-chipmemory)組成。理論上,這種TPU在利用率和性能上要優(yōu)于GPU。     不過目前看來,實際情況并非如此。在研發(fā)深度學(xué)習(xí)芯片的十幾家公司中,只有谷歌和WaveCompuTIng擁有能夠工作的芯片,并正在

5、進行客戶測試。雖然谷歌宣稱自家的TPU在性能和能效的表現(xiàn)上要比GPU好很多,但是這一說法并沒有經(jīng)過獨立驗證。谷歌的第二代“CloudTPU”的功率大概為200多瓦,和英偉達的GPU處在同一范圍內(nèi)。而WaveCompuTIng表示它的3U深度學(xué)習(xí)服務(wù)器可以在40分鐘內(nèi)訓(xùn)練完AlexNet,比英偉達的P100DGX-1服務(wù)器快3倍。如果這是真的,當(dāng)然令人印象深刻,不過按照WaveCompuTIng的說法,其TPU的處理速度本來要快1000倍。奇怪的是,這兩家公司生產(chǎn)的新芯片都沒有被廣泛地使用,這或許表明TPU的實際

6、表現(xiàn)并不如GPU。  TPU之所以沒能超越GPU,英偉達的GPU架構(gòu)進化得非常快是其中的一個重要原因。在經(jīng)歷了四代GPU的迭代之后,英偉達將其深度學(xué)習(xí)芯片的架構(gòu)效率提升了約10倍。下方的圖表顯示了各代GPU每秒鐘執(zhí)行100萬次深度學(xué)習(xí)運算所需晶體管的數(shù)量。需要的晶體管數(shù)量越少,架構(gòu)的效率就越高。如果將所有芯片廠商的晶體管數(shù)量限制在同一水平,那么誰設(shè)計的架構(gòu)效率最高,誰的性能就最好?!   ∮ミ_的K40是最先應(yīng)用于深度學(xué)習(xí)的首批GPU之一,它每秒執(zhí)行100萬次運算需要使用1400個晶體管。其繼任者M40移除了深

7、度學(xué)習(xí)算法不需要的硬件(FP64單元),它只需1000個晶體管就能實現(xiàn)和K40同樣的性能。英偉達在之后推出的P40GPU上添加了對FP16指令添加的支持,使得P40的效能達到M40的兩倍。新推出的V100芯片在每個數(shù)據(jù)通道上添加了兩個專用張量核心,在架構(gòu)效能上是P40的3倍。在過去幾年間,英偉達將其GPU的架構(gòu)性能提升了大概10倍,這就是TPU到現(xiàn)在還無法替代GPU的主要原因?! ≤浖苤匾 【退愠鮿?chuàng)公司在深度學(xué)習(xí)硬件上可能占有優(yōu)勢,但是在軟件上英偉達依舊遙遙領(lǐng)先。和主要使用兩大API(DirectX和Ope

8、nGL)的制圖任務(wù)不同,深度學(xué)習(xí)算法的軟件框架有十幾種之多。而且每種框架都有自己的擁護者:谷歌使用TensorFlow;Facebook使用Pytorch和Caffe;微軟使用CNTK;百度使用PaddlePaddle。由于英偉達最先入場,它的產(chǎn)品支持以上提到的所有框架,而其競爭對手大部分都只支持支持TensorFlow和Caffe?! ∪绻疃葘W(xué)習(xí)編程是圍繞一個領(lǐng)先的框架進行整合的,

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。