gpu并行計算與cuda編程01

ID：27749935

大小：4.31 MB

頁數(shù)：47頁

時間：2018-12-05

資源描述：

《gpu并行計算與cuda編程01》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、GPU并行計算與CUDA編程第1課DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）本周介紹內(nèi)容?0.課程參考資料?1.GPU并行計算的原理與意義?2.CUDA硬件環(huán)境，體系結(jié)構(gòu)，常見的顯卡型號與性能，顯卡的選擇與顯存需求估計?3.CUDA軟件環(huán)境介紹，包括平臺、架構(gòu)、開發(fā)工具和熱點技術(shù)?4.租用AWS云服務(wù)的環(huán)境搭建步驟?5.本地機器的環(huán)境搭建步驟DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）0.課程參考資料DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：La

2、urenLuoYun）0.GPU并行計算的原理與意義?CPU和GPU的區(qū)別?圖片來自NVIDIACUDA文檔。其中綠色的是計算單元，橙紅色的是存儲單元，橙黃色的是控制單元。?GPU采用了數(shù)量眾多的計算單元和超長的流水線，但只有非常簡單的控制邏輯并省去了Cache。而CPU不僅被Cache占據(jù)了大量空間，而且還有有復(fù)雜的控制邏輯和諸多優(yōu)化電路，相比之下計算能力只是CPU很小的一部分DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?CPU的發(fā)展：處理器越來越小，處理速度越來越快，處理核變多。DATAGURU專業(yè)數(shù)據(jù)分析

3、社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?為什么CPU不可以一直沿著趨勢發(fā)展下去？DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?性能(低延時性Latency)與吞吐量(Throughput)?Cache,localmemory：CPU>GPU?Threads(線程數(shù)):GPU>CPU?Registers:GPU>CPU多寄存器可以支持非常多的Thread,thread需要用到register,thread數(shù)目大，register也必須得跟著很大才行。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師

4、羅韻（WeChat：LaurenLuoYun）CPU：基于低延時性設(shè)計DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?ALU：CPU有強大的ALU（算術(shù)運算單元）,它可以在很少的時鐘周期內(nèi)完成算術(shù)計算。?當今的CPU可以達到64bit雙精度。執(zhí)行雙精度浮點源算的加法和乘法只需要1～3個時鐘周期。?CPU的時鐘周期的頻率是非常高的，達到1.532～3gigahertz(千兆HZ,10的9次方).?Cache：大的緩存也可以降低延時。保存很多的數(shù)據(jù)放在緩存里面，當需要訪問的這些數(shù)據(jù)，只要在之前訪問過的，如今直接在緩存

5、里面取即可。?Control：復(fù)雜的邏輯控制單元。?當程序含有多個分支的時候，它通過提供分支預(yù)測的能力來降低延時。?數(shù)據(jù)轉(zhuǎn)發(fā)。當一些指令依賴前面的指令結(jié)果時，數(shù)據(jù)轉(zhuǎn)發(fā)的邏輯控制單元決定這些指令在pipeline中的位置并且盡可能快的轉(zhuǎn)發(fā)一個指令的結(jié)果給后續(xù)的指令。這些動作需要很多的對比電路單元和轉(zhuǎn)發(fā)電路單元。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）GPU：基于吞吐量設(shè)計DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?ALU，Cache：GPU的特點是有很多的ALU和

6、很少的cache.緩存的目的不是保存后面需要訪問的數(shù)據(jù)的，這點和CPU不同，而是為thread提高服務(wù)的。如果有很多線程需要訪問同一個相同的數(shù)據(jù)，緩存會合并這些訪問，然后再去訪問dram（因為需要訪問的數(shù)據(jù)保存在dram中而不是cache里面），獲取數(shù)據(jù)后cache會轉(zhuǎn)發(fā)這個數(shù)據(jù)給對應(yīng)的線程，這個時候是數(shù)據(jù)轉(zhuǎn)發(fā)的角色。但是由于需要訪問dram，自然會帶來延時的問題。?Control：控制單元（左邊黃色區(qū)域塊）可以把多個的訪問合并成少的訪問。?GPU的雖然有dram延時，卻有非常多的ALU和非常多的thread.為了平衡內(nèi)存延時的問題，我們可以中充分利用多

7、的ALU的特性達到一個非常大的吞吐量的效果。盡可能多的分配多的Threads.通常來看GPUALU會有非常重的pipeline就是因為這樣。?CPU擅長邏輯控制，串行的運算。和通用類型數(shù)據(jù)運算不同，GPU擅長的是大規(guī)模并發(fā)計算，這也正是密碼破解等所需要的。所以GPU除了圖像處理，也越來越多的參與到計算當中來。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?什么類型的程序適合在GPU上運行？?1.計算密集型的程序。?2.易于并行的程序。GPU其實是一種SIMD(SingleInstructionMultipleDa

8、ta)架構(gòu)。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：Lau

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 47



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

gpu并行計算與cuda編程01

gpu并行計算與cuda編程01

相關(guān)文章

相關(guān)標簽