gpu并行計算與cuda編程02

gpu并行計算與cuda編程02

ID:27748508

大小:3.71 MB

頁數(shù):31頁

時間:2018-12-05

gpu并行計算與cuda編程02_第1頁
gpu并行計算與cuda編程02_第2頁
gpu并行計算與cuda編程02_第3頁
gpu并行計算與cuda編程02_第4頁
gpu并行計算與cuda編程02_第5頁
資源描述:

《gpu并行計算與cuda編程02》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、GPU并行計算與CUDA編程第2課DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)本周介紹內(nèi)容?1.并行編程的通訊模式?1.1什么是通訊模式?1.2常見通訊模式的類型和原來?2.GPU硬件模式?2.1GPU,SM(流處理器),Kernel(核),threadblock(線程塊),線程?3.CUDA編程模型?3.1CUDA編程模型的優(yōu)點和缺點?3.2CUDA編程編程模型的一些原則?3.3CUDA內(nèi)存模型?3.4同步性synchronisation和屏障barrier?3.5編程模型?4.開始編寫CUDA程序?4.1GPU程序的一般步驟?4.2第一個GP

2、U程序講解——并行求平方DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)1.并行編程的通訊模式(CommunicationPatterns)1.1什么是通訊模式1.2通訊模式的類型和原理DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)1.通訊模式(CommunicationPatterns)?并行計算:非常多的線程在合作解決一個問題Communication?內(nèi)存:DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)1.常見通信模式?1.映射Map?2.聚合gather?3.

3、分散scatter?4.模板stencil?5.轉(zhuǎn)換transpose?6.壓縮reduce?7.重排scan/sortDATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?1.映射Map?輸入輸入關(guān)系:一一對應(yīng)(one-to-one)?例子:每個元素倍數(shù)擴(kuò)大,y[i]=3*x[i]DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?2.聚合gatter?輸入輸出關(guān)系:多對一(many-to-one)?例子:每相鄰3個元素求平均,y[i]=(x[i-1]+x[i]+x[i+1])/3DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第

4、一版講師羅韻(WeChat:LaurenLuoYun)?3.分散scatter?輸入輸出關(guān)系:一對多(one-to-many)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?4.模板stencil:以固定的模式讀取相鄰的內(nèi)存數(shù)值?輸入輸出關(guān)系:serveral-to-oneDATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?5.轉(zhuǎn)置transpose?輸入輸出關(guān)系:一對一(one-to-one)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?6.壓縮reduce?輸入輸

5、出關(guān)系:多對一(all-to-one)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)?7.重排scan/sort1234ADD13610?輸入輸出關(guān)系:多對多(all-to-all)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)1.GPU硬件模式1.1GPU,SM(流處理器),Kernel(核),threadblock(線程塊),線程DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)線程塊?Kernel核:可以理解為C/C++中的一個函數(shù)functionThreadBl

6、ocks:groupofthreadblockstosolveafunctionThreadBlock:agroupofthreadsthatcooperatetosolvea(sub)problem線程塊DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)GPU?SM(streammultiprocessor):流處理器simpleprocessormemory?GPU:每個GPU有若干個SM,最少有1個,目前16個算大的,每個SM并行而獨立運(yùn)行GPUDATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)1.CUDA編

7、程模型1.1CUDA編程模型的優(yōu)點和缺點1.2CUDA編程編程模型的一些原則1.3CUDA內(nèi)存模型1.4同步性synchronisation和屏障barrier1.5編程模型DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻(WeChat:LaurenLuoYun)1.CUDA編程的優(yōu)點和后果?CUDA最大的特點:對線程塊將在何處、何時運(yùn)行不作保證。?優(yōu)點:?1.硬件真正有效的運(yùn)行,靈活?2.無需要線程間互相等待?3.可擴(kuò)展

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。