gpu并行計算與cuda編程02

ID：27748508

大小：3.71 MB

頁數(shù)：31頁

時間：2018-12-05

資源描述：

《gpu并行計算與cuda編程02》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、GPU并行計算與CUDA編程第2課DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）本周介紹內(nèi)容?1.并行編程的通訊模式?1.1什么是通訊模式?1.2常見通訊模式的類型和原來?2.GPU硬件模式?2.1GPU，SM(流處理器)，Kernel(核)，threadblock(線程塊)，線程?3.CUDA編程模型?3.1CUDA編程模型的優(yōu)點和缺點?3.2CUDA編程編程模型的一些原則?3.3CUDA內(nèi)存模型?3.4同步性synchronisation和屏障barrier?3.5編程模型?4.開始編寫CUDA程序?4.1GPU程序的一般步驟?4.2第一個GP

2、U程序講解——并行求平方DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）1.并行編程的通訊模式（CommunicationPatterns）1.1什么是通訊模式1.2通訊模式的類型和原理DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）1.通訊模式(CommunicationPatterns)?并行計算：非常多的線程在合作解決一個問題Communication?內(nèi)存：DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）1.常見通信模式?1.映射Map?2.聚合gather?3.

3、分散scatter?4.模板stencil?5.轉(zhuǎn)換transpose?6.壓縮reduce?7.重排scan/sortDATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?1.映射Map?輸入輸入關(guān)系：一一對應(yīng)(one-to-one)?例子：每個元素倍數(shù)擴(kuò)大，y[i]=3*x[i]DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?2.聚合gatter?輸入輸出關(guān)系：多對一(many-to-one)?例子：每相鄰3個元素求平均，y[i]=(x[i-1]+x[i]+x[i+1])/3DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第

4、一版講師羅韻（WeChat：LaurenLuoYun）?3.分散scatter?輸入輸出關(guān)系：一對多(one-to-many)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?4.模板stencil：以固定的模式讀取相鄰的內(nèi)存數(shù)值?輸入輸出關(guān)系：serveral-to-oneDATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?5.轉(zhuǎn)置transpose?輸入輸出關(guān)系：一對一（one-to-one）DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?6.壓縮reduce?輸入輸

5、出關(guān)系：多對一(all-to-one)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）?7.重排scan/sort1234ADD13610?輸入輸出關(guān)系：多對多(all-to-all)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）1.GPU硬件模式1.1GPU，SM(流處理器)，Kernel(核)，threadblock(線程塊)，線程DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）線程塊?Kernel核:可以理解為C/C++中的一個函數(shù)functionThreadBl

6、ocks:groupofthreadblockstosolveafunctionThreadBlock:agroupofthreadsthatcooperatetosolvea(sub)problem線程塊DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）GPU?SM（streammultiprocessor）:流處理器simpleprocessormemory?GPU:每個GPU有若干個SM，最少有1個，目前16個算大的，每個SM并行而獨立運(yùn)行GPUDATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）1.CUDA編

7、程模型1.1CUDA編程模型的優(yōu)點和缺點1.2CUDA編程編程模型的一些原則1.3CUDA內(nèi)存模型1.4同步性synchronisation和屏障barrier1.5編程模型DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)第一版講師羅韻（WeChat：LaurenLuoYun）1.CUDA編程的優(yōu)點和后果?CUDA最大的特點：對線程塊將在何處、何時運(yùn)行不作保證。?優(yōu)點：?1.硬件真正有效的運(yùn)行，靈活?2.無需要線程間互相等待?3.可擴(kuò)展

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 31



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

gpu并行計算與cuda編程02

gpu并行計算與cuda編程02

相關(guān)文章

相關(guān)標(biāo)簽