1.內存交叉控制器
Crossbar Memory Controller(交叉顯存控制器)保證顯存系統各方面的協調工作,及時滿足GPU的請求。理論上說,NVIDIA的第二代光速顯存架構所提供的顯存帶寬可以達到壹般顯存架構的2-4倍。眾所周知,GeForce4使用128-bit DDR顯存界面,這就意味著壹個顯存周期可以存取256-bit的數據。但每個象素通常包含Z和模數據,也就是說並不能壹次讀取完這兩組數據,而要分開兩次讀取。就目前流行的遊戲而言,三角形的大小都很小,通常只有幾個象素。以壹個由Z和模數據各32bit的三角形為例,它的信息量就是32bits× 2=64bits。如果顯存控制器以256-bit的模式存取數據的話,那就意味著存取過程中有75%的顯存帶寬被浪費了。
2.四組高速緩存
LMA II架構具備Cache子系統,稱為四倍高速緩存(Quad Cache)。其工作原理和CPU的Cache是相同的,可以加快RAM的存取速度。Quad Cahce具有4個獨立的為其功能作了優化的緩沖器,分別負責原始紋理,頂點數據,材質和象素信息的存取。由於各種信息相互獨立,所以在存取過程中免除了壹些不必要的工作,因而可以保證各種信息高速進入圖形管線。下面我們以壹個例子來說明其工作原理:對於分辨率為1280×1024,16-byte讀寫周期,采用三線性過濾,每象素兩個材質的的計算,其信息量為:1280象素/行×1024行/幀×(16bytes/象素+32bytes/象素)×2.5×2=315 MB/幀,而四倍高速緩存技術可以使每象素的信息量從32bytes降低到8bytes,結果變為157MB/幀,可以把節省下來的顯存帶寬利用到更復雜的運算上。
3.無損Z模板緩沖壓縮
這是另壹個GeForce3已配備的功能。然而,在LMA II中,4:1的壓縮應該更常被順利的執行,因為它有新的壓縮運算方式。
4.可視性子系統
這個功能也可以在GeForce3發現,但是對於NV25和NV17,它已經被調整成可以在較少的內存帶寬上達到更多的像素剔除。現在,剔除的動作可以在芯片上的特定剔除表面快速緩存上完成,以避免芯片外的內存使用。
5.自動預加載
對於顯存帶寬而言,頁面管理導致的延遲是壹個容易被忽略的因素。首先DRAM是按照行、列及“Bank”來管理的,只有當前處於活躍狀態的“Bank”中的行列才能進行讀寫。如果GPU要對顯存芯片中另外壹些區域進行讀寫,那麽顯存控制器必須先關閉當前處於活躍狀態的“Bank”,然後才能打開被請求的“Bank”。這壹過程可以花費將近10個DRAM周期,而在這個過程中,數據總線是閑置的。GeForce4的GPU具有預先咨詢顯存控制器的能力,使其對將要訪問的顯存區域進行預充。這樣,等待時間降低到2至3個時鐘周期,GPU和顯存之間的數據傳輸效率自然得到提高。
6.快速Z模板清零
早在壹年前,Radeon的時候就已經見到過。為壹個幀緩沖的某個區域設定壹個標記,而不是用將整個幀緩沖填滿,只有當數據寫入標記時,幀緩沖再會真正被充滿,可以節約內存帶寬。GeForce4的快速Z清除技術可以大大降低這個過程所耗費的時間,在畫質不受損失的情況下使幀速提高將近10%。
不過,GeForce4 MX的第二代光速顯存架構和GeForce4 Ti的有所區別,後者是使用4個32bit負載均衡內存控制器,而前者則是兩個64bit控制器,因此,就這點來說,GeForce4 MX和GeForce 4 Ti區別還是非常明顯。