資源描述:
《新興的AI芯片 為算法帶來(lái)突破性進(jìn)展.doc》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、新興的AI芯片為算法帶來(lái)突破性進(jìn)展 在深度學(xué)習(xí)的領(lǐng)域里,最重要的是數(shù)據(jù)和運(yùn)算。誰(shuí)的數(shù)據(jù)更多,誰(shuí)的運(yùn)算更快,誰(shuí)就會(huì)占據(jù)優(yōu)勢(shì)。因此,在處理器的選擇上,可以用于通用基礎(chǔ)計(jì)算且運(yùn)算速率更快的GPU迅速成為人工智能計(jì)算的主流芯片。 新興的AI芯片為算法帶來(lái)突破性進(jìn)展 在深度學(xué)習(xí)的領(lǐng)域里,最重要的是數(shù)據(jù)和運(yùn)算。誰(shuí)的數(shù)據(jù)更多,誰(shuí)的運(yùn)算更快,誰(shuí)就會(huì)占據(jù)優(yōu)勢(shì)。因此,在處理器的選擇上,可以用于通用基礎(chǔ)計(jì)算且運(yùn)算速率更快的GPU迅速成為人工智能計(jì)算的主流芯片?! ?017年度GTC技術(shù)大會(huì)上,英偉達(dá)推出了他們公司最新研發(fā)的GPU——Volta。該芯片的
2、核心是一款稱(chēng)為“TensorCore(張量處理器)”的人工智能加速器,這是開(kāi)發(fā)下一階段AI應(yīng)用的硬件保障。然而,我們需要升級(jí)軟件,更新AI算法,其原因有兩點(diǎn):一是現(xiàn)有的AI算法不能充分利用這個(gè)加速器的性能,二是為了獲得AI開(kāi)發(fā)中另外的突破?! ∪绻覀兡艹浞掷眠@種新代芯片,不僅將大大推進(jìn)AI應(yīng)用的進(jìn)展,甚至可能會(huì)創(chuàng)建新的AI應(yīng)用。比如說(shuō),AI算法可以利用該種芯片的高速運(yùn)行速度,來(lái)更好地理解和綜合分析人類(lèi)語(yǔ)言。語(yǔ)音識(shí)別系統(tǒng)將極大地完善,音頻的轉(zhuǎn)錄將更加準(zhǔn)確,計(jì)算機(jī)將會(huì)有能表現(xiàn)出語(yǔ)言風(fēng)格和情感的語(yǔ)音系統(tǒng)?! ∮性S多公司已經(jīng)認(rèn)識(shí)到了AI所具有的
3、巨大潛力,還研發(fā)出了強(qiáng)大的芯片,以期獲得AI的廣泛應(yīng)用。例如,英偉達(dá)開(kāi)發(fā)的GPU以及谷歌研發(fā)出的TPU。 這些芯片有一個(gè)共同點(diǎn),就是它們都根據(jù)程序局部性原理來(lái)不斷優(yōu)化算法。為了獲得局部性?xún)?yōu)勢(shì),需要AI芯片和AI算法的共同支持。目前,新興的AI芯片已經(jīng)可以為此提供基礎(chǔ)框架(例如Volta的“TensorCore”),但是更多的AI算法還沒(méi)有獲得與這種芯片的相應(yīng)升級(jí)。通俗地說(shuō),當(dāng)下通行的算法不能充分利用到該芯片的高速運(yùn)行速度?! I芯片的第一階段是并行驅(qū)動(dòng),即同時(shí)執(zhí)行多種任務(wù) 在海量數(shù)據(jù)集上訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)可以充分展示其易被現(xiàn)有并行芯片利
4、用的顯著并行性。然而,目前來(lái)看,內(nèi)存提取性能的發(fā)展遠(yuǎn)遠(yuǎn)不能滿(mǎn)足人們的需求。最終這些新芯片會(huì)面臨“內(nèi)存墻”的困境,即內(nèi)存性能會(huì)嚴(yán)重限制芯片性能的發(fā)揮?! 榱诉M(jìn)入到下一階段,AI芯片仍要在局部性上下功夫。局部性可以體現(xiàn)為重復(fù)引用同一個(gè)變量。打個(gè)比方,您在雜貨店里購(gòu)物,您要按照購(gòu)物清單買(mǎi)東西,清單一共列有10件商品,您如果想加快尋獲商品的速度的話(huà),可以請(qǐng)10個(gè)朋友,讓他們分別找到1件清單上商品。這種方法雖然是并行驅(qū)動(dòng)的,但效率也非常低下,因?yàn)榍鍐紊喜煌奈锲房赡軘[在一起,這就會(huì)產(chǎn)生讓不同的朋友來(lái)找尋相鄰物品的情況,從而降低了效率。一個(gè)更好的辦法
5、是讓每個(gè)朋友去一個(gè)不同的過(guò)道,并只找那個(gè)過(guò)道的物品。這就是局部性解決目前“內(nèi)存墻”困境的方式。 新代AI芯片需要具有顯著局部性特點(diǎn)的算法相適應(yīng)。目前,并不是所有的AI算法都能勝任這一任務(wù),因?yàn)樗鼈儾痪邆滹@著的局部性。計(jì)算機(jī)視覺(jué)算法由于其大量使用卷積神經(jīng)網(wǎng)絡(luò)而在局部性上顯有優(yōu)勢(shì),但語(yǔ)言和語(yǔ)言應(yīng)用中所使用的復(fù)現(xiàn)神經(jīng)網(wǎng)絡(luò)則需要稍加變動(dòng)(尤其要對(duì)其推理能力進(jìn)行優(yōu)化),以改善其局部性。 在百度的硅谷AI實(shí)驗(yàn)室,研究人員嘗試了幾種完善算法的方式,來(lái)挖掘局部性的潛力。早期的實(shí)驗(yàn)顯示出了我們非??赡芸朔@一困難的跡象。例如,研究人員發(fā)展了RNN網(wǎng)絡(luò),讓
6、其在低批量大小下達(dá)到了30倍速的提升。這開(kāi)了一個(gè)好頭,但未來(lái)AI芯片的性能還要有更大的提升。另一個(gè)研究方向是整合了來(lái)自卷積和復(fù)發(fā)神經(jīng)網(wǎng)絡(luò)的想法得來(lái)的,但這個(gè)方向的最優(yōu)解還在后頭?! ∩疃葘W(xué)習(xí)的AI算法計(jì)算有限,迄今為止的突破都是得益于運(yùn)算速度更快的計(jì)算機(jī)的出現(xiàn)。然而,當(dāng)下的算法已經(jīng)取得了突破性進(jìn)展,而且已經(jīng)在語(yǔ)音識(shí)別,機(jī)器翻譯和人類(lèi)語(yǔ)音綜合方面得到了成果。目前,進(jìn)行下一階段AI算法研發(fā)的硬件已經(jīng)到位。早期實(shí)驗(yàn)中的種種跡象表明——我們正處于下一代算法開(kāi)發(fā)的前端。預(yù)計(jì)下一代算法能充分利用目前AI芯片的性能,并且可以引領(lǐng)我們得到其他方面的突破。