gpu并行計算與cuda編程01

gpu并行計算與cuda編程01

ID:27749935

大小:4.31 MB

頁數(shù):47頁

時間:2018-12-05

gpu并行計算與cuda編程01_第1頁
gpu并行計算與cuda編程01_第2頁
gpu并行計算與cuda編程01_第3頁
gpu并行計算與cuda編程01_第4頁
gpu并行計算與cuda編程01_第5頁
資源描述:

《gpu并行計算與cuda編程01》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、GPU并行計算與CUDA編程第1課DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)本周介紹內(nèi)容?0.課程參考資料?1.GPU并行計算的原理與意義?2.CUDA硬件環(huán)境,體系結(jié)構(gòu),常見的顯卡型號與性能,顯卡的選擇與顯存需求估計?3.CUDA軟件環(huán)境介紹,包括平臺、架構(gòu)、開發(fā)工具和熱點技術(shù)?4.租用AWS云服務(wù)的環(huán)境搭建步驟?5.本地機器的環(huán)境搭建步驟DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)0.課程參考資料DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:La

2、urenLuoYun)0.GPU并行計算的原理與意義?CPU和GPU的區(qū)別?圖片來自NVIDIACUDA文檔。其中綠色的是計算單元,橙紅色的是存儲單元,橙黃色的是控制單元。?GPU采用了數(shù)量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯并省去了Cache。而CPU不僅被Cache占據(jù)了大量空間,而且還有有復(fù)雜的控制邏輯和諸多優(yōu)化電路,相比之下計算能力只是CPU很小的一部分DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?CPU的發(fā)展:處理器越來越小,處理速度越來越快,處理核變多。DATAGURU專業(yè)數(shù)據(jù)分析

3、社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?為什么CPU不可以一直沿著趨勢發(fā)展下去?DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?性能(低延時性Latency)與吞吐量(Throughput)?Cache,localmemory:CPU>GPU?Threads(線程數(shù)):GPU>CPU?Registers:GPU>CPU多寄存器可以支持非常多的Thread,thread需要用到register,thread數(shù)目大,register也必須得跟著很大才行。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師

4、羅韻(WeChat:LaurenLuoYun)CPU:基于低延時性設(shè)計DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?ALU:CPU有強大的ALU(算術(shù)運算單元),它可以在很少的時鐘周期內(nèi)完成算術(shù)計算。?當今的CPU可以達到64bit雙精度。執(zhí)行雙精度浮點源算的加法和乘法只需要1~3個時鐘周期。?CPU的時鐘周期的頻率是非常高的,達到1.532~3gigahertz(千兆HZ,10的9次方).?Cache:大的緩存也可以降低延時。保存很多的數(shù)據(jù)放在緩存里面,當需要訪問的這些數(shù)據(jù),只要在之前訪問過的,如今直接在緩存

5、里面取即可。?Control:復(fù)雜的邏輯控制單元。?當程序含有多個分支的時候,它通過提供分支預(yù)測的能力來降低延時。?數(shù)據(jù)轉(zhuǎn)發(fā)。當一些指令依賴前面的指令結(jié)果時,數(shù)據(jù)轉(zhuǎn)發(fā)的邏輯控制單元決定這些指令在pipeline中的位置并且盡可能快的轉(zhuǎn)發(fā)一個指令的結(jié)果給后續(xù)的指令。這些動作需要很多的對比電路單元和轉(zhuǎn)發(fā)電路單元。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)GPU:基于吞吐量設(shè)計DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?ALU,Cache:GPU的特點是有很多的ALU和

6、很少的cache.緩存的目的不是保存后面需要訪問的數(shù)據(jù)的,這點和CPU不同,而是為thread提高服務(wù)的。如果有很多線程需要訪問同一個相同的數(shù)據(jù),緩存會合并這些訪問,然后再去訪問dram(因為需要訪問的數(shù)據(jù)保存在dram中而不是cache里面),獲取數(shù)據(jù)后cache會轉(zhuǎn)發(fā)這個數(shù)據(jù)給對應(yīng)的線程,這個時候是數(shù)據(jù)轉(zhuǎn)發(fā)的角色。但是由于需要訪問dram,自然會帶來延時的問題。?Control:控制單元(左邊黃色區(qū)域塊)可以把多個的訪問合并成少的訪問。?GPU的雖然有dram延時,卻有非常多的ALU和非常多的thread.為了平衡內(nèi)存延時的問題,我們可以中充分利用多

7、的ALU的特性達到一個非常大的吞吐量的效果。盡可能多的分配多的Threads.通常來看GPUALU會有非常重的pipeline就是因為這樣。?CPU擅長邏輯控制,串行的運算。和通用類型數(shù)據(jù)運算不同,GPU擅長的是大規(guī)模并發(fā)計算,這也正是密碼破解等所需要的。所以GPU除了圖像處理,也越來越多的參與到計算當中來。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?什么類型的程序適合在GPU上運行??1.計算密集型的程序。?2.易于并行的程序。GPU其實是一種SIMD(SingleInstructionMultipleDa

8、ta)架構(gòu)。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:Lau

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。