資源描述:
《amd和nvidia的gpu特點(diǎn)及優(yōu)勢(shì)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、AMD和NVIDIA的GPU特點(diǎn)及優(yōu)勢(shì)發(fā)表時(shí)間:2011-4-25?作者:熊東旭?來源:e-works關(guān)鍵字:?GPU?圖形處理器?AMDGPU?NVIDIAGPU? 作為圖形工作站標(biāo)志性的配件,專業(yè)顯卡良好的抗鋸齒功能幫助圖形工作站處理復(fù)雜的三維模型,保證線條的光滑。除線條抗鋸齒功能,專業(yè)顯卡對(duì)重疊圖形、動(dòng)態(tài)光源、圖形剖切等操作的處理,與普通顯卡也有著非常大的不同。作為專業(yè)顯卡領(lǐng)域僅有的兩家廠商,AMD和NVIDIA的專業(yè)顯卡在性能和價(jià)格上都日益趨于同質(zhì)化,純粹的從性能和價(jià)格兩方面來討論兩家產(chǎn)品孰優(yōu)孰劣已不合適。為了更加深入的了解兩家廠商專業(yè)級(jí)顯卡產(chǎn)品的硬件特性,e-works將從
2、兩家廠商的GPU架構(gòu)著手來討論兩家產(chǎn)品的優(yōu)勢(shì)及不足?! ∫?、GPU與顯卡 簡(jiǎn)單來說,GPU與顯卡的關(guān)系就好比CPU與主板的關(guān)系,主板有了CPU才有了動(dòng)力之源,利用CPU提供的動(dòng)能,主板才可以實(shí)現(xiàn)各種功能。同理,顯卡之所以能加速圖形圖像處理,也是因?yàn)镚PU為顯卡提供了強(qiáng)大的運(yùn)算能力。專業(yè)顯卡發(fā)展到今天,無論是AMD還是NVIDIA,功能上已經(jīng)日趨同質(zhì)化,NVIDIA專業(yè)顯卡能實(shí)現(xiàn)的功能,AMD也能實(shí)現(xiàn),但從GPU運(yùn)算能力來講,兩家廠商還是有一定可比較性?! 《?、AMD與NVIDIA的GPU架構(gòu) 對(duì)于像素的特點(diǎn),相關(guān)的文章也討論的比較多。任何一個(gè)像素都包含著兩種不同的屬性信息,即色彩和
3、坐標(biāo)。色彩信息包括RGB三原色和一個(gè)信息通道Alpha;坐標(biāo)信息包括XYZ三維坐標(biāo)信息和一個(gè)重力元素W。為對(duì)像素完成一次色彩計(jì)算和坐標(biāo)轉(zhuǎn)換,GPU的頂點(diǎn)著色單元和像素著色單元從一開始就被設(shè)計(jì)成為一個(gè)周期內(nèi)具備4次運(yùn)算能力的邏輯運(yùn)算器,這便是4D矢量邏輯運(yùn)算器的由來?! 。?)AMD基于SIMD結(jié)構(gòu)的流處理器 AMD的GPU采用的是SIMD架構(gòu)模式,SIMD即SingleInstructionMultipleData,單指令多數(shù)據(jù),這種架構(gòu)能很好的對(duì)像素的色彩和坐標(biāo)所包含的四維數(shù)據(jù)進(jìn)行運(yùn)算。傳統(tǒng)的頂點(diǎn)單元和像素單元中的ALU都能在一個(gè)周期內(nèi)完成對(duì)4D矢量數(shù)據(jù)的運(yùn)算。因此,通常稱這種邏輯
4、運(yùn)算器為4DALU。圖1SIMD架構(gòu) 圖1為SIMD架構(gòu)流處理器的運(yùn)算模式,通過唯一的指令發(fā)射端向所屬的ALU發(fā)送運(yùn)算需求,ALU在接收到運(yùn)算指令后開始并行計(jì)算。需要注意的是,4DSIMD架構(gòu)雖然很適合處理4D指令,但遇到1D指令的時(shí)候效率便會(huì)降為原來的1/4。此時(shí)的ALU,3/4的資源都被閑置。為了提高像素單元和頂點(diǎn)單元執(zhí)行1D2D3D指令時(shí)的資源利用率,從DirectX9時(shí)代開始,AMD的GPU通常采用1D+3D或2D+2DALU。這便是Co-issue技術(shù)。這種ALU對(duì)4D指令的計(jì)算時(shí)仍然效能與傳統(tǒng)的ALU相同,但當(dāng)遇到1D2D3D指令時(shí)效率則會(huì)高不少,例如如下指令: ADD
5、R0.xyz,R0,R1??? //此指令是將R0,R1矢量的x,y,z值相加結(jié)果賦值給R0 ADDR3.x,R2,R3????? //此指令是將R2R3矢量的w值相加結(jié)果賦值給R3 對(duì)于傳統(tǒng)的4DALU,顯然需要兩個(gè)周期才能完成,第一個(gè)周期ALU利用率75%,第二個(gè)周期利用率25%。而對(duì)于1D+3D的ALU,這兩條指令可以融合為一條4D指令,因而只需要一個(gè)周期便可以完成,ALU利用率100%。但當(dāng)然,即使采用co-issue,ALU利用率也不可能總達(dá)到100%,這涉及到指令并行的相關(guān)性等問題,而且,更直觀的,上述兩條指令顯然不能被2D+2DALU一周期完成,而且同樣,兩條2D
6、指令也不能被1D+3DALU一周期完成。傳統(tǒng)GPU在對(duì)非4D指令的處理顯然不是很靈活。圖2AMD5DALU流處理器 為進(jìn)一步改善流處理器的運(yùn)算性能,AMD推出了代號(hào)為R600的顯卡核心,該GPU采用了統(tǒng)一渲染架構(gòu),采用了5路超標(biāo)量運(yùn)算單元,通過在流處理器內(nèi)部集成5個(gè)1D標(biāo)量運(yùn)算單元,每一個(gè)流處理器都能進(jìn)行1+1+1+1+1或1+4或2+3等方式搭配運(yùn)算。同時(shí),為提升ALU運(yùn)算效率,AMD采用了VLIW體系設(shè)計(jì),將多個(gè)短指令合并為一個(gè)超長(zhǎng)指令交給流處理器去執(zhí)行?! ?duì)于下述指令: ADDR0.xyz,R0,R1?//3D ADDR4.x,R4,R5?//1D ADDR2.x,R2
7、,R3???//1D R600也可以將其集成為一條VLIW指令在一個(gè)周期完成。 綜上:R600的架構(gòu)可以用64X5D的方式來描述。圖3R600流處理器 R600采用SIMD架構(gòu),擁有64個(gè)SP,每個(gè)SP中有5個(gè)1DALU,因而通常聲稱R600有320個(gè)PSU,每個(gè)SP只能處理一條指令,ATI采用VLIW體系將短指令集成為長(zhǎng)的VLIW指令來提高資源利用率,例如5條1D標(biāo)量指令可以被集成為一條VLIW指令送入SP中在一個(gè)周期完成。(2)NVI