解讀amd“推土機”架構對比intel的酷睿技術

ID：10879293

大小：296.50 KB

頁數：6頁

時間：2018-07-08

資源描述：

《解讀amd“推土機”架構對比intel的酷睿技術》由會員上傳分享，免費在線閱讀，更多相關內容在行業(yè)資料-天天文庫。

1、解讀AMD“推土機”架對比intel的酷睿技術??10月22日，AMD創(chuàng)新技術大會在京召開，AMD向業(yè)界展示了在CPU和GPU設計方面的創(chuàng)新成果和技術趨勢。雖然AMD全球首發(fā)的RadeonHD6800系列顯卡以及“融聚CPU和GPU”的APU設計足夠奪人眼球，不過令筆者更加關注的還是AMD的下一代處理器架構“Bulldozer”（“推土機”），畢竟，自1999年K7架構問世以來，這將是AMD最為不同的一代處理器架構。???或許應該用“革命”這樣的形容詞，因為“推土機”將是一個全新的處理器架構，基于“推土機”架構的處理器，將和K7之后的所有AMD處理器都不盡相同

2、。AMD全球服務器首席技術官DonNewell先生介紹Bulldozer架構???對此，AMD也有自己的官方理由：“推土機”采用的是介于傳統(tǒng)的“多核”和同步多線程（simultaneousmultithreading，簡稱SMT）之間的第三種方式。我們知道，之前的AMD皓龍?zhí)幚砥鞑捎玫氖恰靶酒嗵幚砥鳌保╟hipmultiprocessing,即CMP）設計，每個獨立的核心運行一個線程，比如AMD雙核、四核皓龍，采用的就是CMP設計；而SMT技術是允許兩個或更多的線程共享相同的核心，并發(fā)執(zhí)行，比如像英特爾的Hyper-Threading。???首先有必要來回顧

3、一下CMP和SMT的優(yōu)劣勢：SMT和CMP方式對比????CMP：?CMP的方式非常直接，簡單來說，CMP是通過“復制”物理核心來擴展處理器在多線程軟件中的性能，這是獲得最佳性能一種最簡單和最有效的方式。但CMP的缺點是制造成本很昂貴，并且也要受到處理器制造工藝的限制，畢竟不能將芯片做的越來越大。并且CMP的方式對負載要求也很高，只有經過適當并行優(yōu)化的負載才能充分發(fā)揮CMP的性能，很多核心的CMP常常會浪費資源，在一些應用中，主頻更高、結構更簡單的雙核和四核處理器就往往可以獲得更好的性能。??????SMT：SMT是一個相對廉價的技術，比如英特爾的Hyper-

4、Threading，允許每個物理核心運行兩個同步線程。SMT的設計思想是充分利用每個核心的資源。如果一個物理核心只有一個執(zhí)行線程，那么在等待內存中的關鍵代碼或數據的時候，線程處于停頓狀態(tài)，這樣核心的利用率是低下的。而SMT技術允許一個物理核心運行兩個或更多的線程，可以根據當前的狀況動態(tài)進行切換，如果一個線程處于停頓狀態(tài)等待內存，另一個線程的指令則可以使用這個物理核心的所有執(zhí)行單元，讓物理核心利用的更加充分。???為了讓SMT正常工作，處理器的所有代碼和存儲部分需要被復制或分區(qū)。例如，一個雙線程SMT處理器需要兩套架構寄存器和重命名寄存器，一套給線程A，一套給線

5、程B。另外組成指令窗口的共享指令隊列要具備很大的空間，這樣指令窗口才能容納足夠多的來自兩個線程的指令，讓執(zhí)行單元可以保持在忙碌狀態(tài)。最后，兩個線程任何共享單元，比如處理管線不同部分的指令緩存，都不能被任一個線程獨占。換句話說，SMT核心的兩個線程需要和另一個緊密的共享資源，保證核心的緩存單元不會空置沒有線程利用。???SMT技術對那些不需要核心線程（threads）全負荷運行的多線程負載比較有意義，對于一個雙線程SMT設計來說，如果這兩個線程都需要花費很長時間等待主內存，那么這個雙線程SMT會表現的就一個CMP雙核處理器，甚至更加高效——因為它比CMP雙核成本

6、要低得多。在這種理想的狀況下，一個雙線程SMT核心幾乎可以等同于一個雙核處理器，并且能耗上還要低的多。???但SMT的效率根據負載不同會有很大差異，AMD認為在真實的應用情況中，一個雙線程SMT核心僅僅等同于1.3個常規(guī)核心的效能，因為很多時候線程都在執(zhí)行資源而不是等待主內存響應，換句話說，如果主內存不再是瓶頸，SMT的執(zhí)行單元就過剩了，而一個SMT核心也就不再比一個單純的核心更高效，畢竟SMT核心需要增加一些電路設計，比一個單純的核心成本要高一些。??解讀“推土機”架構???AMD“推土機”將采用32nmSOI工藝，這讓“推土機”相比“馬尼庫爾”皓龍?zhí)幚砥骺?/p>

7、以在不增加功耗的前提下增加33%的核心數量、增加50%的吞吐量。與AMD之前所有處理器都有所不同的是，“推土機”采用了“模塊化”的設計，每個“模塊”包含兩個處理器核心，這有些像一個啟用了SMT的單核處理器。每個核心具有各自的整數調度器和四個專有的管線，兩個核心共享一個浮點調度器和兩個128位FMAC乘法累加器。???所不同的，在K10架構中，ALU和AGU共享三個管線（平均1.5個），“推土機”中每個核心整數單元管線的數量增加為4個，2個AGU專有、2個ALU專有。L1緩存也有所不同，在K10架構中，每個核心具有64KBL1指令緩存和64KBL1數據緩存；而“

8、推土機”每個核心具有16KBL1數據緩

當前文檔最多預覽五頁，下載文檔查看全文

侵權申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

溫馨提示：
1. 部分包含數學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容，確認文檔內容符合您的需求后進行下載，若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯系客服處理。

解讀amd“推土機”架構對比intel的酷睿技術

解讀amd“推土機”架構對比intel的酷睿技術

相關文章

相關標簽

解讀amd“推土機”架構 對比intel的酷睿技術

解讀amd“推土機”架構 對比intel的酷睿技術

相關文章

相關標簽

解讀amd“推土機”架構對比intel的酷睿技術

解讀amd“推土機”架構對比intel的酷睿技術