SK

nVidia GeForce 9600 GT (OC) - MEGA recenzia

Čip G94




65nm jadro G94 s celým označením G94-300-A1, A1 znači prvú finálnu revíziu

Mainstreamový čip G94, vyrábaný v 65nm procese u TSMC, je založený na základovej unifikovanej architektúre G80 – recenzia: „Prvé pohľady na architektúru G80” a obsahuje zmeny, ktoré priniesol so sebou čip G92, nakoľko patrí do jeho „vývojovej vetvy“. nVidia škáluje výkon svojich čipov hlavne dvoma spôsobmi – počtom clusterov (nazývaných tiež TPCs = thread processing clusters) a frekvenciou. Keďže je rozsah možných frekvencií obmedzený, je jasné, že dlhé roky sa využíva „osekanie“ čipu na docielenie potrebného – nižšieho výkonu.

Z fyzikálneho hľadiska predstavuje G94 natívny 4 clusterový čip – bez neaktívnych clustrov, ktorý má celkovo ~ 505 miliónov tranzistorov v ~225mm^2 (15x15mm) veľkom jadre. Pre tento krok sa rozhodla nVidia, aby mohla produkovať jadrá relatívne lacno, podobne ako AMD/ATi – RV670. RV670 je napriek tomu menší ~ 193mm², cenovo sa to zhruba vyrovná pre mierne drahší a novší 55nm proces. Presné čísla nie sú samozrejme zverejnené. Vďaka pomerne malým rozmerom môže teda nVidia vyrobiť relatívne veľa – viac ako 240 čipov G94 na 300mm wafery, čo znamená v konečnom výsledku viac GeForce 9600GT grafických kariet a vyššie marže. Rovnako môže neskôr aj klesnúť cena čipov, pokiaľ si to vyžaduje situácia a čip s menším počtom tranzistorov dosahuje ľahšie vyššie frekvencie. Finančne menej výhodná varianta by bola vyrobiť G92 čipy s 8 clustermi a následne polovičku vypnúť. Takýto „G94“ by ale naďalej mal ~754 miliónov tranzistorov a asi by bolo potrebné deaktivovať aj inak funkčné clusteri. Jasne vidieť, v čom je výhoda vyrobiť natívny 4 clusterový G94. Vráťme sa ale k technickým detailom.

Nasledujúci obrázok predstavuje do veľkej miery zjednodušenú schému jadra. Znázornený je hlavne tok dát zo začiatku čipu – thread scheduler až po koniec – ROPs (rasterizačné jednotky), kde sa finálne pixely dostávajú do framebuffera a sú zobrazované na vašej obrazovke.



klikni pre zväčšenie

G94 je plne unifikovaný čip, ktorý podporuje a prevyšuje špecifikácie Direct3D 10 API, sám si zabezpečuje vyťaženie jednotiek a zakrýva latenciu. Z hľadiska architektúry vychádza zo známeho G92, ktorý predstavuje die-shrink G80 s rôznymi zmenami. Tieto prebral aj G94. Z tohoto dôvodu sa pozriem len na novinky a rozdiely voči G80. Odporúčam preto prečítať aj článok „Prvé pohľady na architektúru G80”, kde je architektúra čipu G80 komplexne rozobraná.

Na začiatku čipu bol oproti G80 vylepšený loadbalancing a zmeny sa dotkli aj schedulera, vďaka čomu je docielené vyššie vyťaženie výpočtových jednotiek. Počet výpočtových jednotiek TMUs, ALUs priamo závisí od počtu clusterov. Povedzme si teda, čo obsahuje jeden TPC. Jeden G9x cluster obsahuje rovnako ako G8x cluster – 16 Streaming processing jednotiek alebo „skalárnych“ ALUs, zoradených do 2x8 skupín. Tieto skupiny sú interne nazývané – SMs = streaming multiprocessors. Ďalej vidieť interpolátory pracujúce na rovnakej frekvencii ako ALUs, texturovacie jednotky – TMUs, zložené z 8 adresovacích (TAUs) a 8 filtrovacích (TFUs) jednotiek. Patrí sem ešte scheduler na začiatku každého clusteru, ktorý sa stará o to, aby boli jednotlivé jednotky optimálne vyťažené (nVidia sama hovorí o ~75% vyťaženosti TMUs) a 8KiB veľká L1 cache.

Technické parametre čipu "G94"
Výrobný proces:
65nm @ TSMC
Počet tranzistorov: ~505 miliónov
Plocha a rozmery jadra: ~240mm^2; 15,8 x 15,8 mm
Obal jadra: flipchip
Základná konfigurácia: 32 textúr/ 16 pixelov/ 64x Z
Zbernica: 256-bit
4x 64-bit
Podpora Direct3D: 10
Pripojenie k systému: PCI-Express 2.0 x16
Výstupy: 2x dual-link DVI, HDMI, HDCP

Celkovo obsahuje jadro G94 – 64 ALUs, 32 bilineárnych TMUs a 16 ROPs. Podľa oficiálnych informácií neboli uskutočnené žiadne zmeny na „stream procesoroch“. Tieto si vďaka ručne optimalizovaným tranzistorom zachovávajú schopnosť pracovať na oveľa vyšších frekvenciách ako zvyšok jadra. Kvôli tomu sú stále pomerne drahé na tranzistory v porovnaní so SPs RV670. Pre úplnosť dodám, že scheduler a register file v každom TPC pracujú s polovičnou frekvenciou shader-core. 64 ALUs G94 majú dokopy teoretický aritmetický výkon v single precision: 312 GFLOPs/s. Napriek tomu je možné pre general shading využiť len zhruba 224 GFLOPs/s, nakoľko je druhá MUL sub-ALU dodávajúca 3 FLOPs/s vyťažená koreciou perspektív a SFUs. Viac v časti: Technické údaje grafických kariet. Na rozdiel od konkurencie – RV670, nepodporuje G94, double precision = 64bit presnosť spracovania dát. Pre koncového zákazníka to ale nie je podstatné, nakoľko potrebujú takúto presnosť najmä vedci. Rovnako nie je podporovaný posledný update Direct3D API od Microsoftu zavedený Service Packom 1 pre Windows Vista - Direct3D 10.1, ktorý označuje nVidia ako zbytočný. Po Assasin´s Creed, ktorý vďaka patchu využíval D3D 10.1 a oznámení, že nové hry od Blizzard entertainment (dlho očakávané Diablo 3, Starcraft 2), EA, Sega majú podporovať features Direct3D 10.1 ani nie je prekvapujúce, že nVidia začína meniť názor. Podľa informácií tgdaily je plánovaná jeho podporu vo 4.Q2008. Zatiaľ podporujú menovaný update len grafické karty Radeon HD 3000, 4000 od AMD/ATi a Chrome 400 od S3.


Dostávame sa k TMUs (texturovacím jednotkám), ktorých schopnosti neboli takisto zmenené, zvýšil sa jedine počet adresovacích jednotiek. Zatiaľ čo G80 obsahoval dvakrát viac filtrovacích (TFUs) ako adresovacích jednotiek (TAUs), má tento pomer TFUs: TAUs už každý G9x čip rovnaký – 1:1. Znamená to, že čisto bilineárna texelfillrate G9x TMUs sa zdvojnásobila oproti G8x TMUs. V praxi, kedy sa používa minimálne trilineárne alebo trilineárne anizotropné filtrovanie, nepredstavuje táto zmena výhodu. Toto hovorí nVidia oficiálne. Neoficiálne existujú špekulácie, ktoré hovoria o tom, že TMUs G9x sú z časti zdielané. Možno si to predstaviť ako „unifikované“ TMUs, ktorých časť tranzistorov sa využíva na adresovanie a zároveň na filtrovanie. Bližšie informácie neexistujú, sú to už len divoké dohady. Tieto by ale vysvetľovali vyšší prepad výkonu G9x grafických kariet so zapnutým AF oproti G8x. Z časti pravdivé teda pravdepodobne budú. Nebolo by to prvýkrát, čo nVidia „zneužíva“ výpočtové jendotky.

Relatívne najväčšie zmeny sa uskutočnili na ROPs (rasterizačných jednotkách). Ich schopnosti sa oproti G8x ROPs nelíšia, podporované sú rovnaké formáty, FP-32 blending, multisampling, supersampling transparency adaptive, coverage antialiasing a všetko čo si Direct3D 10 vyžaduje. Vylepšená ale bola ich (Color/Z) kompresia pri určitých nastaveniach a najmä vyšších rozlíšeniach. G94 a G92 by mali vedieť preto lepšie zaobchádzať s dostupnou priepustnosťou a VRAM. Zlepšil sa aj Z-culling, ktorý je teraz mierne inteligentnejší. Tieto vylepšenia si G200 ROPs ponechali . Zatiaľ co G80 obsahoval šesť quadov ROPs, G92 ich obsahuje už len štyri. Tieto štyri ROP quady obsahuje aj G94. Dokopy teda 16 ROPs, ktoré dokážu za takt ukončiť 16 pixelov s Color a Z hodnotami. Zachovaná zostala aj „optimalizácia“ vďaka ktorej dokážu všetky ROPs vypočítať 128 Z-samplov (hĺbkových hodnôt) pokiaľ nie je v „hre“ farba. S farbou klesne táto hodnota na 64 Z-samplov. Oproti G80 to je zníženie, kompenzuje to ale plánovaná vyššia pracovná frekvencia jadra – s rovnakou pracujú aj ROPs. Výkon ROPs, keď vezmeme do úvahy vylepšenia a frekvenciu, by nemal predstavovať limitáciu v čipe.



na rozdiel od G92 podporuje G94 len SLI zapojenie dvoch grafických kariet

Využívaný je naďalej pomerne zastaralý crossbar a tak závisí šírka zbernice priamo úmerne od počtu ROPs - lebo každý ROPs quad je spojený s framebufferom. Zatiaľ čo G80 mal šesť 64bit kanálov, má ich G92/G94 len štyri. Celkovo ponúka G92/G94 zákazníkovi teda 256bit zbernicu, štvornásobne poddelenú. So všetkým tým súvisí aj veľkosť VRAM. Každý 64bit kanál je napojený na dva (32bit) pamäťové čipy. Možnosti kapacity VRAM sú teda len 512MiB alebo 1GiB, čo záleží od veľkosti jedného pamäťového čipu (64MiB alebo 128MiB). V spojení s 900MHz GDDR 3 pamäťou má G94, keď berieme do úvahy aj výkon/teoretické hodnoty, dostatočnú priepustnosť k dispozícii. Problém s nedostatkom priepustnosti má ale G92, ktorý s dvojnásobným výkonom má podľa verzie len 7 až 22% vyššiu dostupnú priepustnosť. Viac už v konkrétnom článku GeForce 9800 GTX(+).


Jadro G92 nie je čo sa týka veľkosti na „hrane“ výrobného procesu a nVidia preto mohla integrovať NVIO - všetky I/O tranzistory spolu s VP do samotného jadra. Ba čo viac, G94 obsahuje rovnako ako G92 vylepšený video procesor. Tento dokáže „úplne“ urýchlovať H.264 codec a čiastočne aj VC-1 videá. nVidia odôvodňuje len čiastočné urýchlenie VC-1 faktom, že nie je tak výpočtovo náročné ako H.264. Do budúcnosti by sme si ale želali viac. Ďalšie PureVideo-HD vylepšenia, ktoré sú dostupné aj pre G92 sa uskutočnili v samotnom ovládači. Prvé dve vylepšenia s názvami Dynamic Contrast Enhancement a Dynamic Blue, Green and Skin Tone Enhancement dokážu počas prehrávania (on the fly) analyzovať HD video a napríklad scénam s nedostatočným kontrastom pridať kontrast a dopasovať, zmeniť farby pozadia. Nová je aj funkcia s názvom Dual-Stream Decode. Vďaka nej je možné prehrávať a urýchľovať dva video streamy. Doposiaľ bolo normálne, že pri prehrávaní HD alebo Blu-ray disku vypol Windows Vista Aero plochu a aktivoval klasický vzhľad. GeForce 9600 GT už túto limitáciu nemá.


Čo sa týka pripojenia čipu a grafickej karty k zvyšku systému, podporuje G94 najnovšiu PCI-Express 2.0 zbernicu. Oproti PCI-Express 1.1 sa priepustnosť zdvojnásobila. G94 GPU ponúka okrem toho natívnu podporu SLI, HDMI a DisplayPort. V referenčný dizajne sú síce navrhnuté dva dual-link-DVI výstupy, board partneri sa ale môžu rozhodnúť či ich nenahradiť vyššie zmieneným HDMI výstupom alebo DisplayPort-om.



Comments (14)
jutes
tento cip (a kartu s nim) mozem len doporucit skvely vykon (skoro) GF8800GTcky za malo penazi, uz len pockat na niekoho kto bude predavat ASUS EN9600GT TOP za par supov a kupujem do SLi, a to taktovanie ... ;) OC z 720MHz (OC verzia od ASUSu) na 810MHz OC na jadro je pre mna dostacujucy argument
M1ch4l
uplne som nepochopil to testovanie v 1024x768 a tiez ani porovnanie 9600 GT s 8800 GTX a HD4870 CF, ale ako myslis. inak pekny review, len som to preletel, 9600 GT ma uz par tyzdnov nezaujima :D cakam si na prazdninove zlacnenie HD4870
Gudas
...no ako DFI dosky - neskôr ale kvalitnejšie ;-) Btw, dal som na tvoju radu a kúpil túto kartu už dávnejšie, tento test mi potvrdil že to bolo správne...Ďakujem
M1ch4l
sry myslel som samozrejme HD3870 CF, s CF 4870 myslim ze by tie grafy nedopadli dobre :D
M1ch4l
mohol si este skusit kartu dalej taktovat, ze co to da s tymto nestandardnym chladicom. GF 9600 GT dost malo hreje aj s referencnym, tuna tie 2 heatpipe to musia stihat, takze s teplotami by problem nebol. btw - slo by to dorobit na web moznost editovania svojich komentarov k clankom/novinkam?
andrejsvk
smel by som vediet kolko hodin trva napisanie takejto recenzie ?)
JeffoneoN
Cely clanok je pekny , krasna recenzia ale tie rozlisenia preco si netestoval vo vyssich?
fobos
wow, tych 1024x768 je trochu mimo, nie? Skorej by sa patrilo 1280x1024 a 1680x1050, predsa su to len karty ktore v tychto rozliseniach pustia vsetky hry.
Pavol Bobik
Netestuje sa vo vyssich rozliseniac pretoze v redakcii nie je monitor s vyssim rozlisenim nez 1024x768, bohuzial. Takato recenzia to su desiatky hodin prace. Cruxo je na tyzden na dovolenke, az sa vrati, napise tu presnu odpoved.
fobos
<i>"Netestuje sa vo vyssich rozliseniac pretoze v redakcii nie je monitor s vyssim rozlisenim nez 1024x768, bohuzial. "</i> to ma akoze redakcia C2Q , crossfire HD3870 a monitor s 1024x768 ? Wow, dnes sa da zohnat , ked aj CRT za par stovak
Gudas
...myslené bolo 1280x1024 samozrejme, v teste je toto rozlíšenie použité tiež.
Pavol Bobik
Ano, nezohnali sme ziaden lepsi monitor na dlhodobe zapozicanie - ak nam ho zozenies tak Ti pekne podakujeme. A ze je to par stoviek, ano, ale prevadzka pretaktovanie.sk cosi stoji a najskor sa pokryvaju priority.
sapiq
ta atina ma fakt hrozny CF xDD
crux2005
@M1ch4l: uvedené pracovné frekvencie predstavovali maximum @fobos: nie, C2Q ani CF HD 3870 už redakcia nemá, boli to komponenty vypožičané spoločnosťami na určitú dobu. To čo "vlastní" redakcia je moje osobné PC a s budúcimi recenziami prídu viaceré zmeny ...
Add new comment
TOPlist