作者:喵西和熊
鏈接:https://www.zhihu.com/question/22630075/answer/29041618
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
現在Nvidia的節奏基本上是一個結構用兩年。類似於intel的鍾擺計划。
我們先先談談開普勒架構之前的費米架構好了。
費米的本質是什么,英偉達只要用他來搞通用計算的還有DX11(這個涉及當年的環境問題)。
費米架構提出了GPC和SM的結構概念。每一個GPC則有4個SM,sm里面有32個CUDA,每個CUDA Core是一個統一的處理器核心,執行頂點,像素,幾何和kernel函數,然后有16個儲存單元和8個特殊單元。
上面一段話的意思是,GPC是一個很完整的GPU,而且細分的十分完整。
所以你會看到高中低端是這么分配的低端一個,中端兩個,高端四個。
大家會不會想到CPU呢。。單核,雙核,四核。。大概就是思路。。
然后又引入了一二級緩存這種東西。。大家詳細了解自己去搜相關東西吧。。
而AMD當時的思路跟Nvidia不一樣的是,堅持用simd。至於為什么?可能是AMD和ATI整合,也可能是ATI做過游戲機的芯片制造,這個不好推斷)
大的核心里面有Shader單元,每個Shader內部有5個ALU單元。
五個ALU處理完了之后一起上傳,而CUDA Core是直接上傳了,這就是mimd。
看到ZOL論壇有一個很好的比方。。我就粗略說說意思(傳送門【NV 開普勒 架構解析篇】)
AMD就是一輛戰車,然后一個馬拉着戰車(發射端和控制邏輯端),上面有五個家伙。弓箭手啊,戰士,扔斧子的。
費米就是騎兵。。
戰車雖然相比較騎兵發揮不出一個人的優勢。但是養馬在古代很貴的好吧,就算現在也很貴好吧。。
戰車上有五個漢子,相當於馬加五個人,而騎兵是一個馬加一個人。
性價比肯定是戰車好。
但是數量到了一定程度。史實是大兵團對戰時,騎兵可以用經典的魔獸戰術hit and run對付戰車,先遭遇,一輪齊射,射完馬上后撤,迂回一圈再過來齊射,射完再后撤········(中世紀時曾經很虎的東歐戰車軍就是這樣被蒙古騎兵團滅的,西征波蘭戰役的虐殺)。中世紀開始大家都發現了,一旦戰爭規模玩大了,只能用騎兵,再貴也得用。
Nvidia依舊保持卡皇身份,但是中低端的AMD高功耗比和性價比虐殺。
顯卡跟騎兵不一樣的是。。你弄了那么多馬(發射器和控制邏輯),那玩意是要發熱的。。而且也是要占晶體管的。
所以你就看到核彈這個詞的產生了。。。熱得要死,晶體管多的要命。
詳細請看傳送門
寫的挺好的(對了 要不要找別人授權啥的。。我沒這意識啊。。)
總結一下就是AMD追求數量,而Nvidia追求效率。。
后來AMD發覺在這么玩下去不行,畢竟規模越來越大了。。也開始制造騎兵了,再貴也得用。。。就是tahtil架構。
然后我們回到開普勒架構。。
開普勒開始追求所謂的能耗,如何追求能耗的呢?降低控制邏輯單元和指令發射器的比例,,用較少的邏輯單元去控制更多的CUDA核心,增加吞吐量啊等等方面。
但是關鍵還是在調度的機制。
減少了調度的模塊,才能擁有非常多的cuda(也就是工作單位)

通過軟件把GPU用來分配工作的任務,來交給了CPU。
還有關鍵的幾點是制程的改進,用了台積電的28mm,ddr5的顯卡內存,動態提速(類似睿頻的概念)等。
nvidia 在全面優化各方面,梳理各方面的思緒。方方面面的優化,只為了追求效率和功耗比。
最后說說 Maxwell 架構
相比較開普勒架構的
。。。能夠更好的檢測到每一個cuda的狀態(因為每一個sm單元控制的cuda單元減少),並且通過時鍾調節來控制每一個效率。
,增加了二級緩存。。集成了NVENC,能在視頻解碼的僅僅靠NVENC模塊,讓GPU休眠。。當然還有很多
第一次寫這個,然后好多資料是日語,英語的。我這方面好渣,就先默默搜集,以后在啃。,借鑒了一些國內有質量新聞的東西。。比如說中關村的顧傑。。寫的還是貨比較多的。、。
其實我感覺Nvidia每一代繼承了上一代並且在各方面進行改進。。
~
~~~~~~~~~~~~~~~~~~~~實際情況~~~~~~~~~~~
gtx750TI是maxwell架構 gtx660 650ti是開普勒架構 hd7850是Tahiti架構

跑分

功耗