R600 pod drobnohľadom

crux2005
1.8.2007

Dlhé bolo čakanie na „R600“ – nový grafický čip od AMD/ATi. Od vydania posledného čipu R580+ s podporou DirectX 9 prešielo 9 mesiacov. Veľa vecí sa od vtedy zmenilo. Prebehla akvizícia medzi AMD a ATi. Požiadavky na výkon a features stúpli ešte o čosi vyššie. Hlavná konkurencia v podobe nVidie nespala a predsatvila už v novembri svoj prvý grafický čip s plnou podporou Direct3D 10 - G80. Očakávania boli preto veľké ...

Úvod

Podobne ako G80, predstavuje aj R600 novú základovú architektúru tretej generácie. Prvá generácia sa u ATi obmedzila na R100 (Radeon 256) a RV200 (Radeon 7500). Už krátko za tým nasledovala druhá generácia. R200 (Radeon 8500) tvorila „základový kameň“ tejto generácie z ktorej sa vyvinul veľmi úspešný R300 (Radeon 9500/9700) a ďalší nástupcovia. Pôvodne sa mala tretia generácia objaviť už v roku 2004 v podobe R400. Z rôznych dôvodov (hľavne výkonnostných) nebol tento čip nikdy vydaný. Derivát R400 ale nakoniec uzrel svetlo sveta v podobe čipu Xenos. Tento predstavuje prvú unified shader generáciu GPUs v histórii. Časť knowhow získaného týmto čipom sa využilo už pri konštrukcii R520/R580 (Radeon X1800/X1900), ktoré vychádzajú do veľkej miery ešte z druhej generácie.

R600 je takpovediac ďaľej vyvinutý R400. Nakoľko mala ATi dlhoročné skúsenosti s unified shadermi sa ale voči R400 toho veľmi veľa zmenilo. 4 roky vyvíjal team ~ 300 inžinierov novej „AMD graphics products group“ tento čip, ktorý prevzal len to najlepšie z predchádzajúcich čipov R5x0 a Xenos, ktorý môžete nájsť v hernej konzole Xbox 360. Spolu s podporou nových technológií a viacerými inováciami vytvorila AMD čip, ktorý všetci tak očakávali. Interne nazývaný aj 2. generáciou unified shader architektúry.

(CrossFire zapojenie dvoch Radeon HD 2900XT poskytuje aritmetický výkon takmer 1TFlops/s)

Oficiálne bola nová séria grafických kariet „HD 2000“ predstavená v pondelok 14. mája 2007. Všetky karty série plne podporujú ako prvé u AMD/ATi, novú grafickú API od Microsoftu - Direct3D 10, určenú výhradne pre Windows Vista.

Po 3 rokoch tak vypadlo z názvu série „X“, ktoré bolo zavedené v roku 2004 sériou X800. „HD“ v názve znamená „high definition“, čiže vysoké rozlíšenie a má reprezentovať veľmi dobré multimediálne schopnosti grafických kariet ako aj schopnosti pracovať vo vysokom rozlíšení.

Predstavené boli 3 čipy v podobe 6 kariet pre segment desktop grafické karty. R600 (Radeon HD 2900 XT) a deriváty: RV630 (Radeon HD 2600XT GDDR4/GDDR3/Pro), RV610 (Radeon HD 2400XT/Pro). Žiaľ len v prípade R600 – HD 2900 XT sa jednalo o „hard launch“. To znamená, že len karty založené na tomto high end čipe bolo možné v deň vydania zakúpiť a práve na tento čip sa pozrieme bližšie v tomto technickom článku.

(Radeon HD 2900XT)

(Radeon HD 2600XT GDDR 4)

(Radeon HD 2600XT GDDR 3)

(Radeon HD 2600Pro)

(Radeon HD 2400XT)

(Radeon HD 2400Pro)

Zvyšné čipy RV630/610 majú byť dostupné až o mesiac neskôr – v júni. Zatiaľ spadá na „výkonnostné testy“ týchto čipov embargo. Z technického hľadiska však už nie sú neznámou.

Vráťme sa teraz k R600. Článok je rozkuskovaný na viaceré časti, aby sa dalo vysvetlovaným javom lepšie porozumieť. Najprv sa pozrieme na tento čip zo všeobecného hľadiska, oboznámime sa s technickými parametrami. Potom sa pozrieme na referenčnú kartu, rozoberieme si postupne a podrobne na viacerých stránkach celý čip, ukážeme si benchmark výsledky a čerešničou na torte bude záver - porovnanie kvality obrazu. Hry môžu začať, poďme na to ...

Čip „R600“

Technické parametre čipu "R600"
Výrobný proces:	80nm @ TSMC
Počet tranzistorov:	~ 700 miliónov
Plocha a rozmery jadra:	420 mm2, 20x21mm
Obal jadra:	"Flipchip"
Základná konfigurácia:	16 textúr/ 16 pixelov/ 32x Z
Zbernica:	512-bit 8 x 64-bit
Podpora Direct3D:	10.0
Pripojenie k systému:	PCI-Express x16
Výstupy:	2x Dual-link DVI, HDMI, HDCP

So 700 miliónmi tranzistorov predstavuje najväčší doposial vyrobený čip v segment consumer grafické karty a vystriedal tak z čela G80, ktorý „váži“ ~ 681 miliónov tranzistorov. AMD/ATi si necháva aj v tomto prípade vyrábať tento „kusisko“ kremíka u Taiwan semiconductor manufacturing company – krátko „TSMC“. Vyrábajú ho v špeciálne pre ATi navrhnutom 80nm half node procese „80HS“. Plocha jadra je 420mm2 a obsahuje na rozdiel od G80 všetko potrebné, vrátane I/O logiky.

R600 je plne unifikovaný čip so všetkým čo k tomu patrí, vyložený pre zložité výpočty, filtrovanie textúr, čítanie dát atď. s podporou Shader Modelu 4 určenom v Direct3D 10. Súšasťou jadra je aj plne programovateľná jednotka s názvom Tesselator. Niekomu sa môže zdať práve tento krok, zabudovať tesselátor do R600 ako čudný, nakoľko Direct3D 10 nevyžaduje programovateľnú tesselačnú jednotku a zmení sa to pravdepodobne až niekedy v roku 2009 s príchodom D3D 11. Dôvod však možno nájsť v histórii. Ako som už vyššie spomínal, R600 vychádza z relatívne veľej miery z návrhu grafického čipu „R400“. R400 mala mať tesselator.Tesselator možno taktiež nájsť v grafickom čipe Xenos. Preto bolo pre inžinierov „AMD graphics products group“ jednoduchšie ponechať tesselator v návrhu čipu a neprerábať zbytočne design.

Tesselator podporuje „surface subdivision“ a určité „high order surfaces“ ako: Bezier, N-patches, Bspline, NURBs, NUBs, Loop a Catmull-Clark ... ktoré sa dajú napriek neprítomnosti v API, plne prispôsobovať – programovať. Žiaľ ani s najnovšími ovládačmi v čase písania článku sa v tech. deme „Ruby: Whiteout“ nevyužíva tesselator. Potrebné údaje sú spracovávané pomocou geometry shadera. Tu možno len dúfať na zlepšenia.

Ďalej obsahuje R600 z hardwarového hľadiska až 512 bit externú zbernicu pripojenú na interný 1024 bit dvojsmerný RingBus (512bit šírky je učených na zápis, ďalších 512bit na čítanie dát) s podporou množstva interných pamätí a externých pamätí GDDR 3/GDDR 4. Práve množtvo interných pamätí cache, ktoré sú typu SRAM, zaberajú nemalú časť jadra. Spojenie so systému zabäzpečuje PCI Express , pripojený k RingBusu cez vlastný RingStop.

Na rozdiel od Radeon RV630 a RV610 nemá R600 „video decoding core“ nazývané Unified Video Decoder – alebo krátko „UVD“. Z hľadiska „power managmentu“ podporuje čip všetko potrebné – zníženie taktu (clock throttling), zmeny napätia, vypnutie jednotiek podľa vyťaženosti – všetko pod marketingovým názvom „PowerPlay 7“.

Grafické karty založené na R600 majú názov HD 2900XT, poďme sa preto teraz pozrieť bližšie na kartu.

(Klikni pre obrázok v originálnej veľkosti)

(Jadro R600 v celej jeho kráse)

(Jadro R600 pod mikroskopom - možno vidieť prvú a RDL vrstvu)

Grafická karta Radeon HD 2900XT

Ako jediná karta založená na high end čip „R600“ prichádza na štart Radeon HD 2900XT. Predstavuje momentálne najvyšší model v sérii Radeon HD 2000. Cena karty sa nachádza momentálne na „prijateľných“ ~ 13 000 SK. Odporúčaná cena HD 2900XT je pre high end kartu, čo je podstatné si uvedomiť, veľmi nízka – „len“ 399 USD.

Zaujimavosť hneď na začiatok. Podľa slov AMD/ATi nepredstavuje Radeon HD 2900XT priameho konkurenta GeForce 8800GTX, ale „len“ pre slabšiu verziu GeForce 8800GTS. V budúcnosti samozrejme možno očakávať ďalšie verzie kariet, ako HD 2900 XTX, alebo Pro. Momentálne sa AMD/ATi ale ohľade toho nevyjadruje. Možno to chápať ako jasný signál, že spoločnosť nechce sklamať zákazníkov a v zápätí od vydania high end karty vydať ďalšiu, mierne silnejšiu karty za oveľa vyšší peniaz.

Celková dĺžka karty je 24cm, podobne ako GeForce 8800GTS, ktorá má 23cm. Dlhšia je už len GeForce 8800GTX/Ultra s 28cm. Radeon HD 2900XT má od výroby 2 prednastavené „clock“ profily. Jeden 3D a jeden 2D. S 3D profilom pracuje jadro karty na frekvencii 742 MHz (R600 má 1 hlavnú „clock doménu“ a pre zaujímavosť okolo 30 iných asynchrónnych domén s podobnými pracovnými frekvenciami), pamäte GDDR 3 od juhokórejského Hynixu na frekvencii 825MHz. 2D profil zníži frekvenciu jadra na 507MHz a pamäť na 514MHz.

V nasledujúcej tabuľke si pozrieme niektoré základné údaje s max. teoretickými hodnotami:

Technické parametre ATi Radeon HD 2900XT
Názov grafickej karty:	Radeon HD 2900XT
Veľkosť pamäte Vram:	512 MiB
Čip:	"R600"
Pracovná frekvencia jadra:	742 MHz
Pracované frekvencia pamäte:	825 MHz
Teoretické peak hodnoty @ 742/825 MHz
Pixel fillrate:	11 872 Mpixels/s
Texel fillrate:	11 872 Mtexels/s
Z sample rate:	23 744 Msamples/s
AA sample rate:	47488 Msamples/s
Aritmetický výkon:	475 GFLOPs/s
Geometry rate:	742 Mtriangles/s
Priepustnosť pamäte:	105,6 GB/s

Ako vidieť z tabuľky, Radeon HD 2900XT má v spojení s 512 bit externou zbernicou a pamäťami Hynix HY5RS573225A FP-1 (ktoré sú typu GDDR 3) pracujúcimi na frekvencii 825MHz (1650 MHz efektívne) max. hodnotu priepustnosti až 105,6 GB/s. Pre tých, ktorý stále neveria – stopäť celých šesť GB za sekundu. Napriek takejto vysokej priepustnosti nie je Radeon HD 2900XT prvá karta, ktorá má priepustnosť nad 100GB/s. Prvá bola GeForce 8800Ultra s 384 bit zbernicou. V niečom ale HD 2900XT prvá je – ako prvá karta v segmente consumer grafické karty má 512 bit zbernicu.

(Klikni pre obrázok v originálnej veľkosti)

PCB karty je červenej farby a jedno z najzložitejších aké bolo kedy vyrobené. Chladič nezaostáva takisto v ničom – pokrýva takmer celú kartu a podobnosť s chladičmi GeForce 8800 je očividná. Chladené je hlavne jadro R600 a 1,0 ns pamäte GDDR 3 (z oboch strán). Na jadre sa nachádza veľký medený pasív v ktorom sú zapustené 2 heatpipe trubice (novšie karty môžu mať 3), ktoré v spojení so 70mm radiálnym ventilátorom zabezpäčujú odvoz tepla. Vyhotovenie pasívu zanecháva dobrý dojem. Celková hmotnosť karty tomu nasvedčuje. Studený vzduch je nasávaný ventilátorom a teplý vzduch je tlačený von cez mriežky karty. Chladič je podobne ako na GeForce 880GTS/GTX až dvojslotový – zabudovanie karty zaberie 2 sloty.

(Klikni pre obrázok v originálnej veľkosti)

Negatívnym faktom pre AMD a zákazníkov je veľmi zlá „static power leakage“ 80HS procesu. „Vďaka“ tomu má jadro relatívne veľkú spotrebu a produkuje veľké stratové teplo aj pri nižších napätiach VGPU. Nie je preto prekvapením, že AMD/ATi siahlo po takomto chladiči a takom veľkom medenom pasíve. Takisto nie je potom prekvapením, že nájdeme na PCB karty až 2 konektory na prídavné napájanie. Jeden z nich je dokonca „nový“ 8 pinový, ktorý tvorí ďalšiu +12V vetvu a vie dodať prúd veľkosti až 6A. Napriek tomu všetkému, nie je na chod karty nutné mať zapojený 6Pin a 8 Pin konektor – karta si vystačí aj s dovama 6 Pin VGA konektormi. Pre tých, ktorý by sa báli, že zle zapoja druhý 6 Pin konektor je tu dobrá správa – konektor sa dá zapojiť len v jednom a tom správnom smere. ;-) Karta spotrebuje v priemere zhruba 160W, v max. záťaži sa ale spotreba môže vyšplhať až na 200W.

(Klikni pre obrázok v originálnej veľkosti)

AMD/ATi zabudováva na Radeon HD 2900XT dva dual-link DVI výstupy. Tieto výstupy sú plne HDCP kompatibilné a (nie je zatiaľ jasné či len jedna alebo obidve) podporujú HDMI výstup pre audio aj video cez prídavný adaptér (tento adaptér je súčasťou balenia). Možné je toto z dôvodu nevyužitej priepustnosti DVI výstupu, ktorá sa využije na prenos zvuku. Potrebná „Key-ROM“ nie je ako u GeForce 8800 umiestnené mimo čipu, ale nachádza sa v jadre R600. Okrem príslušenstva, ktoré sa môže od výrobcu k výrobcu líšiť, má každá Radeon HD 2900, 2600 a 2400 v krabici aj tzv. „BlackBox“ – čo je kupón od Valve, ktorým sa dajú cez online systém „Steam“ aktivovať 3 hry - Half Life 2: Episode 2, Team Fortress 2 a Portal.

Spotreba, teploty, hlučnosť ...

Už pred vydaním karty sa šírili internetom chýri, že R600 bude mať veľmi veľkú spotrebu. Tento fakt sme samozrejme chceli aj my preveriť. Pre tento účel sme nechali bežať 3DMark 2006, konkrétne test „Canyon Flight“ v slučke s maximálnym možným rozlíšením – 1280x1024 a 8xMSAA, 16xAF. Na meranie spotreby celej zostavy sme použili voľne dostupné meracie prístroje – spotrebu karty sme vypočítali .

Z meraní vyplýva, že napriek opatreniam k znížení spotreby, má Radeon HD 2900XT podobnú spotrebu v 2D ako GeForce 8800GTX. GeForce 8800GTS je mierne šetrnejšia a nepotrebuje tak veľa energie ako konkurent od AMD/ATi.

V 3D sa scenár opakuje a Radeon HD 2900XT predbieha v negatívnom slova zmysle všetky doposiaľ vyrobené karty. Spotrebuje neuveriteľných ~ 180W, čo predstavuje momentálne rekord v spotrebe.

Pre zistenie maximálnej teploty jadra pri záťaži sme využili utilitku od AMD pre grafické karty, ktorá vie okrem zvýšenia frekvencie (pretaktovania) aj čítať teplotnú diódu v jadre. Maximálna teplota jadra nepresiahla pri zaťažení 3D Markom 2006 hranicu 92°C, čo predstavuje v týchto teplých letných dňoch pomerne dobrý výsledok. (Karta bola počas všetkých testov zabudovaná v dobre vetranej skrinke s dvoma 120 mm vetrákmi).

Zmiešané pocity však zanecháva 70 mm radiálny ventilátor. V 2D pracuje pomerne ticho a nemusí sa hanbiť ani pred GeForce 8800. V záťaži pomaly zrýchluje až dosahuje v určitých situáciách, keď stúpne teplota jadra nad určitú hranicu, neprimerane vysokých otáčok, výsledkom čoho je subjektívne veľký hluk s mierným piskotom v pozadí. Našťastie sa po určitom čase zreguluje, keď klesne teplota. Celkovo zanecháva ventilátor hlučnejší dojem ako riešenia konkurencie. Napriek vylepšeniam v Catalyste 7.6 nie je ešte systém termoregulácie ventilátora dotiahnutý k spokojnosti. Veď možno predpokladať, že primárnym cieľom inžinierov bol chladiaci výkon a schopnosť ventilátora odviezť teplo – to koncept spĺňa.

Poďme sa teraz porieť hlbšie do jadra R600. Začína technická časť ...

Schéma jadra „R600“

(Klikni pre obrázok v originálnej veľkosti)

Obrázok predstavuje do veľkej miery zjednodušenú schému jadra R600. Zobrazený je hlavne tok dát zo začiatku čipu – „command processora“ až po koniec - „ROPs“, kde sa dostávajú finálne pixely do „framebuffera“ a sú zobrazované na vašej obrazovke.

R600 je plne unifikovaný a paralelne pracujúci čip so všetkým čo k tomu patrí, ktorý spĺňa a dokonca prevyšuje špecifikácie Direct3D Shader Modelu 4.0 s architektúrou shader core, ktorá si sama rozkladá záťaž („self load-balancing“). Dôraz pri designe sa kládol hlavne na vysoký výkon ALUs a maximálne možné zakrytie latencií, ktoré je dosiahnuté shader core-om, paralelizáciou vlákien a decentralizovaným prístupom k pamäti vďaka pamäťovému radiču. Už pri prvom pohľade je to vidieť, aký dôraz sa kládol voči predchádzajúcim high end čipom, hlavne na shader core a maximálne využite dostupnej priepustnosti pri 3D (aj 2D) renderingu.

Shader core obsahuje ALUs so single precision, ktoré spĺňajú štandard IEEE 754 v oblasti zaokrúhlovania a presnosti pre všetky matematické operácie, spolu so schopnosťou pracovať s celými číslami. Všetky „stream processing units“ (SPUs) ale nemajú rovnaké schopnosti. 5. ALU v skupine SPUs má väčšie množstvo schopností ako ostatné. Vie narábať so špeciálnymi funkciami (SFUs) a niektorými špeciálnymi celočíselnými operáciami. R600 a všetky ostatné čipy rovnakej architektonickej rodiny obsahujú, ako bolo už vyššie spomínané – tesselačnú jednotku.

Toto sú základy grafického čipu. Poďme sa preto pozrieť detailnejšie na čip a jeho jednotlivé časti. Začneme „command processorom“ , kde celý „špás“ začína.

Command processor a Thread setup

Command processor a thread setup sú časti jadra, ktoré umožňujú pracovať čipu R600 efektívne a výkonne. Príjmajú tok príkazov a dát od ovládača, ktorý zase pracuje na dátach poskytnutých grafickou API ako príkaz, aby hardware niečo vykonal. Command processor v R600 je takisto zodpovedný za to, aby schvaloval stav hardwaru, pri príkaze aplikáciou či je hardware správne nakonfigurovaný pre operácie, ktoré je nutné vykonať. Predtým bol ovládač úplne zodpovedný za skontrolovanie stavu, ale plná podpora DirectD3 10 si vyžiadala, aby hardware robil časť práce a tým sa znížila inštrukčná komunikácia („overhead“) a vyťaženie procesora pri vykreslovaní scény. Spolu so znížením „overheadu“ pri behu aplikácie v Direct3D 10 a jednoduchým príkazom, ktorým sa zadá GPU úloha vykonať niečo si tento proces vyžiada celkovo menej cyklov ako predtým.

Command procesor si takisto zisťuje stav jednotlivých výpočtových jednotiek v čipe, aby vedel či je vôbec nutné zmeniť stav jednotiek, nakoľko sú dobre nakonfigurované, alebo nie je nutné zmeniť stav jednotiek, nakoľko príkaz aplikáciou je neplatný. Schvalovanie stavu prebieha v R600 aj v DirectX9 aplikáciách pod operačnými systémami Windows Vista, XP, 2000 – takže aj tieto aplikácie ťažia z command processora. Okrem toho neobsahujú nové ovládače pre HD 2000 sériu už „staré časti ovládača“, ktoré sa starali o schvalovanie stavu, nakoľko je v samostatnom čipe výpočtová jednotka, ktorá má tento proces na starosti. Popri schvaľovaní stavu a nastavení je command processor upresňovaní thread setup jednotkou, ktorá rozhoduje o druhu threadov, čiže „vlákien“ (pixel, vertex, geometry a sampler), „batch“ operáciách a dátach, ktoré majú byť posielané nižšie čipom.

Setup engine

Thread setup som oddelil, nakoľko sa nachádza pred setup enginom, ale mohol som ho napísať aj sem. Je zodpovedný za to, aby sa vlákna (thready) a dáta dostali do správnej podoby a formátov, ešte pred poslaním do dispatcherov (túto časť čipu si rozoberieme ďalej v článku), kde sú spracované. Odosielané sú v podobe skupiny threadov. Následne na nich pracuje shader core. Pokiaľ dochádza k vertex processingu, je setup hardware zodpovedný za usporiadanie dát v pamäti pre optimálny prístup - teda vertex fetch nie je obmedzovaný pamäťou. Okrem toho je zodpovedný za konfiguráciu a prísun dát do tesselátora.

Tesselátor ako súčasť setup enginu predstavuje pred-shading úroveň. Jeho výstup sú koordináty geometrie a textúr, ktoré posiela ďalej assembleru, aby na nich pracoval. Môže pracovať v podstate voľne, nakoľko generovaná geometria skoro nikdy nezaplní pamäť Vram. Takéto situácie však môžu sporadicky nastať. Limitovaný môže byť rasterizérom a evaluation funkiou, ktorá sa využíva pri tesselácii. Nakoľko by sa dalo o tesselátorovi napísať samostatný článok, tak sa mu už na tomto mieste nebudeme viac venovať.

Rasterizáciou sa generujú časti „tiles“ (dlaždíc) z geometrie, ktoré putujú do shader core na výpočet. R600 využíva podľa všetkého rovnaké 16x16 rozdelenie obrazu na štvorce ako predchádzajúce Radeon grafické karty.

Medzi ďalšie vylepšenia R600, ktoré spadajú do setup enginu, patria vylepšenia Hierarchical-Z a Hierarchical Stencil. Sú teraz optimalizované pre veľmi vysoké množstvo pixelov (4Mpixelov a viac). Hier-Z/S buffery predstavujú rôzne pohľady na depth a/alebo stencil hodnotu v tile, aby vedeli rozhodnúť či odhodiť geometriu pred rasterizáciou, a tým znížiť počet pixelov poslaný hardwarom alebo nie.

Samozrejme, využíva sa aj early-Z v tradičnom chápaní (otestovať a odhodiť každý pixel individuálne), avšak hier-Z pomáha znižovať počet testov, ktoré musia byť uskutočnené, nakoľko môže odhodiť naraz viac pixelov čo šetrí priepustnosť pamäte. Každý stupeň v buffer pyramíde obsahuje rôzne čísla z rozdielnych hodnôt pre Z/S, ktoré kontroluje hardware, aby vedela rozhodnúť, či odhodiť alebo ponechať a poslať ďalej tile.

R600 zavádza okrem toho aj novinku s názvom „Re-Z“. Umožňuje GPU skontrolovať Z-buffer dvakrát. Prvýkrát pred pixelshaderom a druhýkrát po shader core výpočtoch.

Setup engine vykonáva aj príznakovú interpoláciu pre shading, napriek tomu, že máme tento obvod zobrazený v shader core. Pokiaľ sa dokončil setup riadí engine hotové thready, ktoré môžu byť rôznej veľkosti v počte objektov do shade core pre ďalšie výpočty. Hardware dokáže fetch 16 vertices za takt z pamäte Vram, vyhotoviť 1 hotový trojuholník za takt (max. hodnota: 742Mtriangles/s u HD 2900XT).

Nakoľko je threading model najnovších čipov AMD/ATi jeden z podstatných aspektov novej architektúry, venovali sme mu viac času.

Threading a Branching

Jednotku, ktorú nazývame „cluster dispatch processor“ má na starosti riadenie výpočtov v shader core clusteroch (AMD/ATi ich nazýva SIMDs). Podobný procesor sa nachádza v sampler array. Tieto bloky logických obvodov riadia threading model v R600, zakrývajú latenciu a snažia sa udržiavať tok inštrukcii a dát cez celý čip.

Vstup zo setup enginu predstavujú tri rady príkazov, jeden pre rozdielny druh threadu. Tieto rady príkazov obsahujú thready, ktoré dispatch hardware necháva spracovávať shader core. Každý cluster obsahuje dvojicu ariber-ov, ktoré spracuvávajú dvojice objektových threadov za dobu 4 vykonaných taktov predtým, než sa načítajú nové thready a sú spracovávané. Zaznamenávanie threadov (thread tracking) pre výpočet je kontrolované systémom, ktorý necháva hardwaru vykonávať thready v cluteroch neusporiadane. Zaznamenáva závislosti a iné parametre (aké operácie sú vykonávané, do ktorých registrov sa zapisuje, z ktorých sa číta), aby vedel rozhodnúť, čo sa bude vypočítavať ako ďalšie, namiesto momentálne vykonávaného threadu.

Základná heuristika je nastavená tak, aby sa shader thready, ktoré čakajú na sampler dáta uspali, zakryla sa latencia a vykonali sa nerušene shading operácie.

Pár sequencer-ov (1 pripadá na každý arbiter) vo vnútri dispatch procesora je tu preto, aby zaznamenával cestu threadov vo svojich blokoch, ktoré sa vypočítavajú. Dáta zo sequencer-a, ktoré sa dostávajú do arbiter-a mu dávajú vedieť, kedy je thread skoro kompletne hotový a je možné ho narhadiť novým.

R600 podobne ako iné architektúry zníži počet threadov v akomkoľvek čase, pokiaľ je silný nával na register. Teda nedochádza k brzdeniu („stall“) threadov z dôvodu preplneného registra.

Dynamic branching granularita je 64 pixelov a najvačší výkon sa dosahuje pri použití 4x4 quad blokov usporiadaných na obrazovke (čiže 8x8 pixelov). Pri použití branching shaderov s iným usporiadaním textúr pre sampling v shadery napr. 32x2, 16x4 alebo 2x32, 4x16 dochádza k strate výkonu.

Bloky inštrukcií a konštanty sú udržiavané dispatch procesorom vo vnútri čipu – v určených virtuálnych pamätiach cache. Využívajú sa preto, aby sa maximalizovala efektivita a aby mohol hardware prijať tak rýchlo stav threadu, ako je to len možné. Každý „miss“ (strata dát, ktoré boli potrebné, ale nie sú v pamäti cache) pamäte cache tu spôsobí, že thread, ktorý potreboval dané dáta sa „uspí“. Iný thread sa presunie na jeho miesto a potrebné dáta sa fetch-nu do cache, aby boli pripravené pokiaľ sa thread opäť „zobudí“. Cache „miss“ tu môže takisto spôsobiť, že sa zníži priorita threadu, čiže sa thread nemusí zobudiť po tom, ako ho thread za ním vymenil.

Pokiaľ sa pozrieme na množstvo threadov, ktoré sa dostáva len do shader core, tak sa hardware musí vedieť vysporiadať až s tisíckami threadov (ktoré môžu obsahovať aj stotisíc objektov). Pre sampler thready je heuristika jednoduchšia, nakoľko tu nemôže nastať silný nával na register. Je tu ale požiadavka, aby boli potrebné dáta v správny čas v správnej pamäti cache. Preto tu nenastáva refetch z dôvodu cache „miss“ a priepustnosť čipu je vysoká, zakrývajúca latenciu data fetch a každého filteringu po fetch.

To, že threading model pracuje dobre je aj zásluha pamäťového radiča a jeho schopnosti riadiť a zoraďovať dáta z hlavného pamäťového bloku („main pool“) spolu s DRAM blokom na grafickej karte ku klientom, ktorý si vyžadujú potrebné dáta a následne ich zapamätajú. Teraz sa pozrieme na shader core.

Shader core

Čip R600 obsahuje štyri takéto clustre, alebo inak povedané 4 SIMD (single instruction multiple data) arrays. Dokopy teda 320 nezávisle pracujúcich ALUs určených pre shading s nasledovným usporiadaním. Každý cluster obsahuje 16 shader jednotiek z ktorých každá obsahuje 5 sub sklárnych ALUs, ktoré vypočítavajú shading operácie. Každá táto ALU môže počítať nezávislé operácie za takt. Na rozdiel od väčšiny predchádzajúcich čipov pracujú 4 ALUs „vertikálne“ a 1 výkonnejšia ALU, ktorá sa stará aj o SFUs „horizontálne“. Vďaka čomu sa skracuje výpočtový čas, pokiaľ nie je nutné vypočítať toľko nezávislých inštrukcií na pixel za takt ako je kanálov. Takisto aj vyťaženie jednotiek je lepšie. Znázornené pomocou RGBA a SFU v nasledujúcom obrázku:

R600 využíva vďaka VLIW (Very Large Instruction Word) paralelnosť inštrukcií. VLIW design čipu má možnosť zabaliť až 6 inštrukcií za takt, pre každú shader jednotku. (5 shading + 1 branch inštrukciu) do hotových inštrukcií pre shader core.

Compiler a assembler vykonávajú pri tom veľa úkonov ako balenie operácie a ich správne usporiadanie čo znižuje celkovú efektivitu hardwaru v porovnaní so skalárnou architektúrou G80. Všetky ALUs ale nemajú rovnaké schopnosti. 5. ALU v skupine má väčšie množstvo schopností ako ostatné štyri a vie pracovať okrem toho nezávisle.

Vďaka branch execution jednotke, ktorú poznáme už z „R520“ nie sú blokované iné sub skalárne ALUs pokiaľ dochádza k dynamic branchingu (napr. pomocou príkazou when/if).

Každá zo štyroch sub ALUs je schopná poslať ďalej hotovú single precision MADD (takisto ADD, alebo MUL) s pohyblivou rádovou čiarkou (floating point), dot produkt (dp) a celočíselnú (integer) ADD za takt. ALUs majú presnosť pre výpočty s pohyblivou rádovou čiarkou 1 ULP pre MADD a ½ ULP pre ADD a MUL. Tieto ALUs nepodporujú 32-bit mantisu. Majú len 1 cestu dát von a dnu zo sub ALU, takže tu nie sú žiadné paralelné výpočty . Denormy sú nastavené na 0 pre Direct3D 9 aj 10, avšak hardware podporuje inf. a NaN podľa IEEE 754 špecifikácií.

5. väčšia ALU nedokáže spracovať dot produkt operácie, avšak je schopná vykonávať celočíselné delenia (integer division), násobenia (MUL), posúvanie bitov (bit shifting) a stará sa o špeciálne funkcie (ako: sin, cos, pow, log, rcp, exp atď). Tieto operácie dokáže ukončiť za 1 takt. (toto platí aj pre väčšinu špeciálnych funkcií) Takisto je zodpovedná za konverzie celých čísel na čísla s pohyblivou rádovou čiarkou a späť (convert). Na rozdiel od ostatných jednotiek pracuje táto vnútorne dokonca s presnosťou FP 40 (32-bit je mantisa a 8-bit exponent). Vďaka tomu vypočíta MUL/MADD operácie na INT32 pod Direct3D 10 za jeden takt. G80 by potreboval na tento výpočet až 4 takty. To je výhoda mať VLIW architektúru a rôzne druhy výpočtových jednotiek.

Každý cluster spracováva väčšinou páry threadov s rovnakým druhom za takt. Napriek tomu dokáže každý z týchto 4 clusterov sprácovávať rozličné druhy threadov, pokiaľ je to nutné. Začiatok čipu (front end) pracuje s load balancingom threadov naprieč celého jadra ako bolo už vyššie spomínané a nie je nič čo by zabráňovalo tomu, aby boli všetky thready len pixel, vertex, alebo geometry.

Pre lokálny prístup k pamäti dokáže shader core čítať a zapamätávať dáta z/do obrovitánskeho registra, ktorý zaberie na čipe väčšiu plochu ako samostatné ALUs shader core. Prístupy môžu prebehnúť v „skalárnej“ podoby (čiže jedno 32-bit „slovo“ aplikácie) alebo až v podobe 5 kompletne ľubovolných inštrukcií. Vďaka tomu je tvrdenie ATi o super skalárnej architektúre R600 úplne oprávnené. Shading výkon s použitím viacerých registrov je preto veľmi dobrý a nezaznamenáva poklesy ani pokiaľ shader využíva nepárne registre. Je to zatiaľ určite jeden z highlightov architektúry. Prispieva okrem toho k potenciálne veľmi dobrému GPGPU (General Purpose Computation on Graphics Processing Unit ) výkonu R600.

Pri prístupe k registrom (čítaní a zapisovaní) sa využíva 8KiB univerzálna a veľká pamäť cache. Cache predstiera hardwaru register, efektívne – ako keby každý údaj v pamäti cache bol údajom v oveľa väčšom registry. Nie je jasné, či sa využíva prefetching, ale je jasné, že hardware sa snaží maximalizovať „hits“ (zásahy). To znamená, aby sa boli potrebné údaje už v pamäti cache a vďaka tomu sa využila jej rýchlosť.

Podľa všetkého využíva čip túto pamäť cache aj pri streamoute pamäti Vram, aby mohol shader core podporiť color buffer a ROPs pri prístupe k pamäti. Takisto je táto cache využívaná pre R2VB a prebytku rozširovania GS.

Prechod na 5 sub skalárnych ALUs umožnil AMD/ATi viac flexibility v rozvrhovaní inštrukcií v porovanní s predchádzajúcim hardwarom. Avšak táto väčšia flexibilita sťažuje prácu (zapisovanie) compileru a programátorom grafického ovládača, nakoľko má viac možností ako zabaliť inštrukcie. Takisto je vďaka 5 sub skalárnym ALUs shader core optimalizovaný pre vertex shading, nakoľko sú práve dané operácie väčšinou 5D.

Zhrnuté a podčiarknuté. Dostávame shader core s veľmi veľkým výkonom a veľkou peak hodnotou aritmetického výkonu. Stačí si predstaviť to veľké množstvo aritmetických jednotiek, ich pracovnú frekvenciu a obrovský register. Vyjadrené v číselnej hodnote: 64 shader jednotiek x 10 Flops x 0.742GHz = 475 GFlops/s (floating point operácií za sekundu).

Pokiaľ teda porovnávame len max. (peak) hodnoty aritmetického výkonu je GeForce 8800GTX výkonnejšia. Všetko sa ale obracia, pokiaľ počítame len čisto MADD výkon týchto grafických kariet, nakoľko je vo väčšine prípadov 2. MUL jednotka G80 vyťažená korekciou perspektív.

Kvôli tomu veľkému výkonu ale bude softwaru trvať dlhšie, aby ho vedel maximálne vyťažiť a využiť. Nehovorím ale, že je to nemožné – to nie. Bude to ale oveľa ťažšia úloha pre driver team, vyvíjajúci ovládače v porovnaní s predchádzajúcimi čipmi aby sa o to staral počas „života“ čipu.

Pozrime sa teraz na prístup k pamäti Vram zo sampler hardwaru. Sampler jednotky nie sú „priviazané“ k jednotlivým shader clusterom, ale k určitým pozíciám vo vnútri shade clusteru. Pokiaľ si predstavíte 16 shader jednotiek v jednom clusteri ako 4 quady, tak každá zo 4 sampler jednotiek v R600 je práve priviazaná k jednému tomuto quadu.Takto sa to opakuje v celkom shader core.

Práve sampler hardware je to, na čo sa pozrieme ako ďalšie.

Sampler hardware

Každé výraznejšie zvýšenie výkonu shader core, voči predchádzajúcej architektonickej generácii sa musí odzrkadliť aj na zvýšení výkonu a schopností inej časti čipu. Nie je preto prekvapením, že sa viditeľne zvýšili schopnosti a výkon práve samplerov voči R580 alebo R520. Takisto môžno argumentovať, že to čip R600 aj potreboval pri pohľade na sampler hardware konkurencie – G80.

Čip R600 obsahuje štvoricu výpočtových jednotiek, ktoré sú väčšinou nazývané nie celkom presne texturovacími jednotkami (TMUs). My ich ale nazývame presnejšie „samplermi“ ,nakoľko odzrkadluje tento názov ich väčšie schopnosti filtrovať a adresovať ako by ste od textúrovacej jednotky očakávali.

Každá sampler jednotka dokáže adresovať 8 adries, fetch 16 FP32 hodnôt pre bilineárne filtrovanie a 4 FP32 hodnoty pre point sampling, všetko samozrejme za 1 takt. Teda vykonávať bilineárne filtrovanie s výkonom 4 INT8 alebo 4 FP 16 bilerps za takt z týchto fetch hodnôt. Neverte tomu čo ste mohli inde čítať o tom, že R600 vykonáva FP 16 filtrovanie s polovičným výkonom – nakoľko to nie je pravda. INT16 s 3 alebo 4 kanálmi ale čip nevie počítať s plnou rýchlosťou. Benchmark výsledky tieto tvrdenia potvrďujú – INT8 a FP 16 bilineárne filtrovanie s 1 až 4 kanálmi vykazujú rovnaké hodnoty.

Pokiaľ sa teraz zameriame na unifikovaný data fetch v shaderoch, dokáže čip vykonať Fetch4 fetch namiesto bilineárneho fetch za 1 takt. Ako bolo spomínané už na predchádzajúcej strane – každá sampler jednotka je „priviazná“ k určitému sub „quadu“ v shader clustery a odovzdávaja jemu potrebné dáta. Podporované je samozrejme aj 32-bit RGBE filtrovanie (nakoľko si to vyžadujú Direct3D 10 špecifikácie), aby mohli vývojári použiť tento formát pre HDR rendering vo svojich nových enginoch. Okrem toho všetkého dokáže čip pristupovať k veľmi veľkym - až 8Kx8K textúram, pre fetch alebo filtrovacie operácie.

Všetky fetch a filtrovacie schopnosti sú dostupné pre každý druh threadov, nakoľko nevedia sampler jednotky rozoznať čo ich využíva. Každá sampler jednotka má dosah na 32KiB lokálnu pamäť L1 cache a zdielanú L2 cache veľkosti až 256KiB, aby sa minimalizovali „misses“ (straty) L1 cache a maximalizovali „hits“ (zásahy).

Čip využíva okrem toho vertex cache pre urýchlenie nefiltrovaných fetch-ov. R600 podpruje tie isté dekompresné formáty z pamäti cache ako R580 pre DXT formáty a 1, 2 kanálové „hĺbkové“ formáty od ATi.

Všetky filtrovacie stupne sú dostupné pre všetky podporované formáty spolu s nelineárnymi. Napriek týmto vylepšeniam sa výraznejšia vylepšenia nedotkli AF (anizotropného filtra). HQAF R5xx série je teraz štandardne pri R600 zapnuté. Takisto sa mierne zlepšila presnosť 16xAF a bolo odstránených pár bugov, ktoré spôsobovali v určitých scénach shimmering textúr. R600 vykazuje napriek tomu v AF testerovi takmer identický obraz ako R580/R520. Má rovnaký výber mipmap levelov a v určitých uhloch (podotýkam veľmi ostrých) nefiltruje matematicky korektne 16x ale len s nižším AF. Kvalita AF R600 zostáva napriek tomu subjektívne na vysokej úrovni, ale objektívne je AF konkurencie – G80 lepšie. R600 podporuje aj urýchľovanie depth stencil textúr a PCF, vďaka čomu získavajú karty založené na tomto čipe v benchmarku „3DMark 2006“ viditeľný prírastok výkonu za 1 takt.

Počet jednotiek a ich fetch, filter výkon je v tomto čipe vyšší ako v R580, napriek tomu je toto oblasť v ktorej R600 (niekedy až veľmi) zaostáva za výkonom sampler jednotiek G80. Sampler jednotky pracujú na base frekvencii 742MHz ako zvyšok čipu. U G80 s jeho ortogonálnym sampler hardwarom je filtrovací výkon len záležitosť, ktorá závisí od dostupných bilerps za 1 takt, pokiaľ neberieme v úvahu priepustnosť pamäte.

Samozrejme netreba zabúdnúť, že sampler hardware R600 nepracuje s inými výpočtovými jednotkami v pevnom poradí – je „fully threaded“. Obsahuje arbiter a sequencer určený výhradne pre sampler jednotky. Je to hardware podobný tomu, ktorý má každý shader cluster v shader core, ale s rozdielnou heuristikou riadenia spracovávaných threadov. Práve vďaka tomu, že je sampler array „fully threaded“ sa mu darí skrývať latenciu, využívajúc pamäťový radič , aby bolo zaistené vyťaženie shader core, ktorý predstavuje clienta sampler array cez pamäťový radič. Pamätáte sa ešte na to ako som písal, že shader core môže dať uspať a odložiť thready pokiaľ čaká na sampler dáta? Tie dva schedulers spolupracujú, aby bolo zabezpäčené práve toto uspatie. Lebo prístup k pamäti DRAM pre získanie dáta a nasledovné odoslanie cez obvody pre filtrovanie môže stáť až stovky voľných taktov. Veď nechceme predsa nechať zbytočne čakať shader core.

Ďalej sa pozrieme na ROPs.

ROPs

Alebo ako ich označuje AMD/ATi – RBEs = render back ends je asi najkontroverznejšia časť čipu R600. Najprv sa však pozrieme na ich základné schopnosti. ROPs podporujú už 8x multisampling antialaising (MSAA), nakoľko bola „maska“ zvýšená z 12x12 (ako bola na všetkých predchádzajúcich Radeonoch od R300) na 16x16 s použitím programovateľných sample gridov. 4 sample pozície sú testované za takt na 4-bit gride (16 rôznych pozícií na 1 pixel, X/y os, 256 dokopy). Je možné testovať všetky povrchové formáty vrátane „float“ povrchov. Z toho vyplýva, že základné multisampling schopnosti čipu sú zhodné s G80. Pri zohľadnení programovateľnosti dokonca prevyšujú konkurenciu.

Blender, ktorý sa nachádza 4x v každom ROP quade, je takisto nový. Dokáže vykonávať hociktorú FP16 blend operáciu za 1 takt, FP32 s polovičnou rýchlosťou. 4 hotové pixely vychádzajú z každého ROP quadu za 1 takt. ROP hardware sa vždy snaží čo najlepšie využiť poskytnutú priepustnosť, aby podporil zápisy floating point pixelov do framebuffera pri hore spomínanej rýchlosti. Je to niekoľko GB za sekundu na udržatie 60 fps s FP16 pri rozlíšení 2560x1600. Netreba pritom zabúdať, že dostupná priepustnosť sa využíva ešte aj pre iné operácie v čipe v rovnakom čase, aby sa generovali tieto fps.

Nové ROPs podporujú takisto 2x väčšie množstvo Z-only zápisov v provnaní s Color zápismi, dokonca aj pri AA. Z toho nám vyplýva 32 pixel Z-only zápisov za takt. Ďalej udáva AMD/ATi, že „depth“ a „stencil“ kompresné logické obvody pre tiles boli vylepšené a podporujú teraz 16:1 kompresný pomer voči 8:1 v R5xx, ktorý priamoúmerne rastie s použitým AA modom (max. 128:1 s 8xMSAA teoreticky). Hardware využíva aktívne prefetch a zapamätávanie komprimovaných tile dát do pamäti cache, aby bola zaistená dostupnosť pri dekompresii pre sample resolve. Takto sa dostávame k najkontroverznejšej časti čipu: ako je (ne)vykonávaný MSAA sample resolve ...

Custom Filter Antialiasing

Custom Filter AA alebo v skratke CFAA je non box filter riešenie od AMD/ATi. Pozerá aj von z pixelov, ktoré sú spracovávané pre výpočet finálnej farby a uskutočnenie antialiasingu na obraze. Sample resolve je vykonávaný shader core-om. Čiže dáta sa dostávajú do programovateľného hardwaru, ktorý vykonáva výpočty s filter funkciou definovanou ovládačom. Z toho vyplýva, že AMD/ATi by mohla implementovať do ovládača plug-in systém, pomocou ktorého by si užívateľ sám definoval AA. Takisto ale môže AMD/ATi hocikedy vykonať update a pridať, alebo odobrať filtre z ovládača, pokiaľ to uznajú za nutné.

Najväčšia výhoda je schopnosť vyhotoviť lepší filter ako so štandardným hardware resolve. Je tu ale aj rad nevýhod. Napríklad implementácia zlých filtrov a z toho vyplývajúca strata výkonu, nakoľko ovládač prikáže a hardware vykoná thready pre výpočet resolve, čo pohltí určité takty shader core. Naskytuje sa preto otázka, či je tu stále možnosť štandardného sample resolve, pokiaľ chceme maximálny výkon a bežnú kvalitu pri samplingu jedného pixelu. Nie, táto možnosť tu nie je vždy.

Aj pre základný box filter, kde sa váha jednotlivým samplom udáva podľa príbuznosti k stredu pixelu, vykonáva R600 sample resolve výpočty v shader core, ale iba ak je kompresia pre tile maximálna. Nakoľko je jasné, že resolve by vrátil v každom prípade rovnakú farbu, čiže nie je nutné nič matematicky komplikované filtrovať. Momentálne je ale výmena k hardware resolve pravdepodobne tiež chybná, prinajmenšom v určitých podmienkach – keď nie je kompresia maximálna, alebo je nutné vykonať úpravy priamo v kóde, nakoľko sa implementujú pri programovaní aj iné filtre. V grafickom ovládači máte teda len 1 cestu pre resolve. Prikláňame sa ale skôr k prvej možnosti, nakoľko je prepad výkonu R600 pri shader core resolve príliš veľký a takisto pri použití box filtrov. Určité zlepšenie by sa mohlo dosiahnuť ešte novými ovládačmi. Hardware tu už tak či tak do určitej miery pomáha, nakoľko je schopný dekomprimovať sample pozície pre pixely do shader core pri vysokej rýchlosti.

Momentálne sú dostupné wide a narrow tent filtre, kde sample mimo spracovávaného pixelu dostávajú váhu lineárne závislú od vzdialenosti k stredu tohoto pixelu. Na základe spôsobu vyhladzovania tent filtrov je teda jasné, že sa celý obraz mierne rozostrí, nakoľko dostane časť samplov susediacich pixelov príliš vysokú váhu. Blur efekt je ale oveľa menší ako pri riešení „Quincunx“ od nVidie z pred pár rokov. Rozdiel medzi tent filtrami je, že wide tent zahrnie viac subpixelov susediacich pixelov ako narrow tent. Teda wide tent filter spôsobí trochu silnejší blur.

Okrem toho je od Catalystu 7.7 dostupný štandardne aj edge detect mód. (Poznámka: my sme museli pre testovanie kvality EDCFAA použiť ešte beta ovládače a špeciálnu utilitku, ktorá nám túto možnosť sprístupnila) Edge detect na rozdiel od wide/narrow tent filtrov aplikuje blur (rozostrenie) len cielene, kde je to potrebné. Najprv vyhľadá na celom obraze hrany polygonov. Toto je uskutočnené vďaka tomu, že využije charakteristiky multisamplingu. Po jednom pixely sa celý obraz cez ROPs nahrá do shaderov. Tie potom porovnajú farebné informácie subpixelov. Je subpixel farba samplov na pixel rovnaká, tak sa nejedná o hranu polygonov a CFAA sa tu nevykoná. Pokiaľ sa ale farebné hodnoty rozlišujú, použije sa CFAA. Prepad výkonu s edge detect módom ale nie je zanedbateľný, nakoľko spotrebuje shader core/ROPs výkon a potrebuje určité množstvo priepustnosti.

CFAA nie je možné použiť na starších Radeon grafických kartách, nakoľko nemajú ich ROPs schopnosť posielať sample do shader core. Okrem toho funguje CFAA jedine pod Direct3D, avšak so všetkými AA modmi a render technikami ako HDR-R, stencil tiene atď.

Spojením 3 filtrov a rôzneho množstva samplov možno dosiahnuť veľké množstvo CFAA modov. AMD/ATi využíva nasledovnú nomenklatúru pre označenie modov:

Custom filter antialiasing:
4x	2xMSAA + Narrow Tent
6x	2xMSAA + Wide Tent alebo 4xMSAA Narrow Tent
8x	4xMSAA + Wide Tent
12x	8xMSAA + Narrow Tent alebo 4xMSAA + Edge Detect
16x	8xMSAA + Wide Tent
24x	8xMSAA + Edge Detect

Ako vidieť v tabuľke, dva CFAA mody sa dajú dosiahnuť dvoma rôznymi kombináciami použitých samplov a filtrov využitých pre resolve. Číslo označújúce mod predstavuje celkový počet samplov s ktorými pracoval filter. Avšak tieto dva mody nemajú zhodnú kvalitu obrazu (nakoľko sa dajú použiť 2 filtre pre dosiahnutie potrebného početu samplov). Z toho vyplýva, že nemožno použiť čisto len číslo označujúce CFAA mod, pre zistenie, či poskytuje lepšiu alebo horšiu kvalitu vyhladzovania ako iný CFAA mod s vyšším alebo nižším číslom. Takisto nemožno len podľa veľkosti čísla určit stratu výkonu pri zapnutí daného CFAA modu.

Aktuálne nie je isté, či sa vôbec integruje do ovládačov pug-in systém, vďaka ktorému by si užívateľ definoval vlastné filtre. Nie je ani isté, či AMD/ATi počas života R600 pridá alebo odoberie filtre (pravdupovediac, nie sú si tým istý ani pracovníci AMD/ATi, nakoľko sú tieto funkcie ovládača veľmi „mladé“). Nasledujú benchmark výsledky.

Testovacia zostava

Grafické karty sme testovali na 2 takmer identických zostavách, ktoré mali pretaktovaný iba procesor a pamäť DDR 2 RAM, aby nelimitovali výkon GPUs. Testovali sme v rôznych syntetických benchmarkoch, voľne šíriteľných aj interných od AMD/ATi. Všetky výsledky sú uverejnené na nasledujúcej strane spolu s komentárom.

Testovacia zostava:
Procesor:	Intel Core2Duo 6300/6600 @ 3.2 GHz
Operačná pamäť:	2GB DDR 2 RAM @ 800MHz
Grafické karty:	Sapphire Radeon HD 2900XT 512 MiB @ 742/1650MHz MSi GeForce 8800GTX 768 MiB @ 575/1350/1800MHz
Operačný systém:	Windows XP + Service Pack 2, Windows Vista pre Direct3D 10 testy
Použité grafické ovládače:	Catalyst 7.5 pre Radeon HD 2900XT Pre testovanie EDCFAA: beta ovládač 8.3742 ForceWare 158.22 pre GeForce 8800GTX
Obrazovka:	19" LCD panel, 1280x1024 max. rozlíšenie

(Klikni pre obrázok v originálnej veľkosti)

Benchmark výsledky

Výkon shader core:

V nasledujúcom teste sa používajú 2 rôzne shadre, optimalizované pre 5 sub skalárne ALUs R600. Jeden slúži na zistenie max. výkonu shader core a druhý predstavuje „worst case“ scenár – čiže najhorší možný prípad. Shadre bežia v 2 aplikáciách. Jedna je určená pre DirectX 9 a druhá pre Direct3D 10, aby sme zistili, či existujú výkonnostné rozdiely pri použití rôznych API.

Jedna časť testu obsahuje navzájom závislý tok skalárnych inštrukcií a predstavuje tak najhorší možný prípad, keď z 5 sub skalárnych ALUs bude vyťažená len 1 a výkon shader core tak spadne na 1/5. Druhá časť obsahuje navzájom nazávislých tok inštrukcii a slúži na zistenie maximálneho výkonu. Všetky shadre v teste sú pixel shadre.

Výkon shader core teda vidieť v tabuľke a je takmer zhodný pri použití rôznych API. Navzájom závislý tok skalárnych inštrukcií ukázal s čím musí R600 bojovať a čo skalárna architektúra G80 zvláda oveľa lepšie. Hardware R600 nemal jednoducho možnosť rozvrhnúť voľné inštrukcie na zvyšné ALUs. Treba si ale uvedomiť, že typické shadre v hrách obsahujú množstvo rôznych inštrukcií, rôzne množstvo komponentov a ešte veľa iných rozdielov, ktoré musí R600 rozumne rozvrhnúť.

Takisto sme zaznamenali, že všetky špeciálne funkcie dokáže hardware vykonávať s výkonom 1 SFU za takt, okrem RCP, ktoré je vykonávané polovičnou rýchlosťou. Okrem toho bolo vidieť, že konverzia float INT potrebuje 1 takt na 1 skalárny kanál a hardware vykonáva DP4 za 1 takt, pokiaľ sú všetky 4 sub skalárne ALUs voľné (toto platí samozrejme aj pre DP3/DP2). Teoreticky by mal byť ADD výkon shader core R600 veľmi vysoký, pokiaľ ho dokáže hardware efektívne rozvrhnúť. Podľa všetkého je možné dosiahnuť maximálny výkon shader core hocijakou samostatnou inštrukciou, pokiaľ sa s ňou dokáže compiler vysporiadať. Toto je ale prvok, ktorý musel byť zvládnutý aj pri každej predchádzajúcej programovatelnej architektúre. Veríme preto, že kompetentné osoby v AMD/ATi dokážu optimalizovať čip pre väčšínu bežných situácii a časom aj pre tie menej bežné.

Výkon sampler hardwaru:

V ďalšom benchmarku sa dá nastaviť množstvo formátov, niektoré aj s premenlivými kanálmi a samozrejme output, čiže texturing operácie za sekundu. My sme sa pozreli na bilinear a point sampling výsledky INT 8, INT 16, FP 16,FP32 a DXT. Zamerali sme sa hlavne na povrchové formáty INT8 a FP16, nakoľko sa často využívajú v Direct3D 10.

Využívali sme sample zo 4x4 textúri, aby sme dosiahli maximálny výkon. V porovnaní s G80 má R600 prístupnú 1/4 INT8 bilerp a 1/2 FP 16 bilerp rate za takt. Radeon HD 2900XT má ale pracovnú frekvenciu sampler hardwaru až 742MHz.

R600 nestráca výkon pri INT8 a FP16 bilinearnom filtrovaní (vrátane 4 kanálových povrchov), pokiaľ nelimituje priepustnosť (všetkých 16 texelov bolo čítaných z texture cache). S ďalšími nekomprimovanými formátmi stráca R600 polovičku výkonu pri porovnaní 4 kanálového s 1 kanálovými povrchom. G80 má vyšší 4 kanálových FP32 filtrovací výkon vďaka výkonnejším sampler jednotkám. A

ko vidieť, nestráca Radeon HD 2900XT výkon ani so 4 kanálovým FP16 filtrovaním. Pri 4 kanálovom INT16 už ale stráca polovičku výkonu, nakoľko nemá sampler hardware dostatok presnosti k dispozícii (nie je dostatok mantis k dispozícii). Sampler hardware G80 však má dostatok presnoti k dispozícii, preto nestráca výkon. Pokiaľ sa ešte pozrieme na D32F filtrovanie (Depth32), nestráca R600 žiaden výkon na rozdiel od G80. Tento formát je vhodný pre takmer každé implementácie tieňov, okrem VSM.

Point sampling výsledku sú skoro totožné pre formáty, ktoré sme testovali:

Výkon ROPs:

Pozreli sme sa samozrejme aj na výkon ROPs. Testovali sme Color, Color + Z a Z-only fillrate v rozlíšení 1024x768. Vo výsledkoch vidieť dvojnásobnú Z-only fillrate pokiaľ je vypnutá Color. Takisto zobrazujú výsledky predpokladaný prepad fillrate so zapnutým 8xMSAA.

Všeobecné benchmarky výsledky

3DMark2006

Pravdepodobne jeden z najznámejších benchmarkov od spoločnosti „Futuremark“ sa momentálne nachádza vo verzii 2006, preto má aj označenie 3DMark2006. Zo 6 testovaných scén merajú 4 výkon grafickej karty. 2 sú určené pre test výkonu procesora. Pre dosiahnutie očarujúcich scén siahli vývojári po moderných 3D technológiách. Využíva sa preto Shader Model 3.0, textúry s vysokým rozlíšením, komplexné výpočty tieňov, High Dynamic Range Rendering (HDR-R). Futuremark vsadila na FP-16 HDR, ktoré poskytuje momentálne najlepšiu možnú kvalitu, ale je aj najnáročnejšie na výpočet. Testovali sme v rozlíšení 1280x1024, bez AA/AF.

Čiastkové 3Dmark 2006 výsledky:	GeForce 8800GTX:	HD Radeon 2900XT:
Fill Rate - Single-Texturing	6937 Mtexels/s	7901 Mtexels/s
Fill Rate - Multi -Texturing	17 944 Mtexels/s	11 809 Mtexels/s
Pixel Shader	463 fps	346 fps
Vertex shader - Simple	230 MVertices/s	291 MVertices/s
Vertex shader - Complex	109 MVertice/s	192 MVertices/s
Shader Particles (SM 3.0)	164 fps	129 fps
Perlin Noise (SM 3.0)	151 fps	173 fps

V celkovom scóre 3Dmarku2006 sa nachádzajú GeForce 8800GTX a Radeon HD 2900XT pomerne blízko seba. Viditeľné rozdiely vo výkone sa objavujú len pri Vertex Shader testoch, kde boduje R600 vďaka svojím 5 „skalárnym“ ALUs a pri fillrate testoch, kde bodujú TMUs G80. V single texturingu sa darí presadiť R600 vďaka vyššej priepustnosti. Žiadne prekvapenia sa teda nekonajú.

Fablemark

Fablemark bol podobne ako jeho nástupca Templemark vyvinutý spoločnosťou PowerVR. Predstavuje pomerne staré techdemo s veľkým podieľom overdraw, ktoré malo vtedy ukázať silné stránky TBDR architektúry čipu „Kyro“. Tou je stencil výkon stencil buffera, ktorý limituje v tomto teste. Vďaka tomu poukazuje na ROPs výkon grafických kariet.

GeForce 8800GTX ukazuje svoju silnú stránku vďaka 192 Z/Stencil jednotkám a poráža Radeon HD 2900XT.

Villagemark

Aj Villagemark je techdemo PowerVR, ktoré je limitované texelfillrate a výkonom HSR (Hidden Surface Removal), vďaka čomu malo zvýrazniť výhody čipu Kyro2. Overdraw je takisto veľmi veľký.

Vďaka veľmi vysokej texelfillrate nestráca GeForce 8800GTX ani s lepšou filtrovacou kvalitou fps. Radeon HD 2900XT na rozdiel od toho stráca zlepšením filtrovacej kvality nemalú časť obrázkov za sekundu.

Fillrate tester

Fillrate tester je malý ale veľmi užitočný program na meranie fillrate-ov jednotlivých grafických kariet. Na rozdiel od v 3Dmarku06 integrovanom fillrate testeri, ktorý meria v prípade Single-Texturing prednostne priepustnosť pamäte, dokáže tento program merať rôzne druhy fillratov. My sme sa zamerali na meranie pixelshader fillrate-ov. Použité shadre v teste sú pomerne krátke a zaťažujú aj dosť priepustnosť, preto sme použili max. možné rozlíšenie, aby sme ťažisko preniesli na fillrate. Testovali sme v rozlíšení 1280x1024, 32-Bit, 24-Bit Z a 8-Bit Stencil buffer s obnovovacou frekvenciou 60Hz.

Podľa očakávania poráža v tomto teste GeForce 8800GTX novú Radeon HD 2900XT

Shadermark

Shadermark 2.01 je syntetický benchmark určený k maraniu pixelshader výkonu grafických kariet od tommti-systems. Vďaka častým updatom ide benchmark stále s dobou a podporuje aj Shader Model 3.0. Hodí sa preto k porovnaniu moderných architektúr. V benchmarku sa testuje výkon až v 25 shaderoch, ktoré sú napísané v HLSL (High Level Shader Language) v rozlíšení 1280x1024.

Radeon HD 2900XT sa v tomto benchmarku darí presadiť a poráža v určitých shaderoch aj GeForce 8800GTX, napriek ešte pomerne mladým ovládačom.

D3D Rightmark

Syntetický benchmark D3D Rightmark vo verzii Beta 0.4 umožňuje testovať grafické karty v rôznych čiastkových testoch. Napriek tomu, že sa jedná len o syntetický benchmark a nedokáže otestovať karty v „reálnych“ hrách vie odkryť ich jednotlivé silné, alebo slabé stránky. Testuje sa Vertex shader 3.0 a Pixel shader 3.0 výkon v HLSL shaderoch. Okrem toho aj výkon HSR (Hidden Surface Removal), Pixel-Filling, Point-Sprites a Geometry processing speed. Ako rozlíšenie sme použili 1280x1024 bez AA vždy s max. možným nastavením.

V HSR testoch bývajú Radeon grafické karty tradične v predu, nakoľko majú výkonnejší hierarchický Z-buffer. Podobne sa darí novej Radeon aj v geometry processing speed, kde sa prejaví vysoký vertex shader výkon R600. GeForce 8800GTX na oplátku poráža Radeon HD 2900XT v pixel fillingu a výrazne v pixel shader teste -1 , vďaka skalárnej architektúre a použitých shaderov v testoch. Obe architektúry „odkryli svoje karty“.

Porovnanie AA

Moderné high end grafické karty by nemali byť len výkonné, ale mali by poskytovať aj kvalitný obraz. Jednou z možností ako toto dosiahnuť, aj keď content hry nevyzerá najlepšie je zapnutie antialiasingu – AA, aby boli vyhladzované hrany polygonov a anizotropného filtra - AF, ktorý spôsobí ostrosť na textúrach. AMD/ATi a nVidia sa preto snažia vždy so zavedením novej generácie grafických kariet prekonať konkurenta v týchto features. Často preto vídame pozitívne zlepšenia, ale aj negatívne prekvapenia v podobe optimalizácií, ktoré znižujú kvalitu obrazu. (Poznámka: optimalizácia nie je automaticky negatívna, ale pokiaľ zhoršuje kvalitu obrazu, áno.) Z tohoto dôvodu sa pozrieme aj na kvalitu obrazu Radeon HD 2900XT a GeForce 8800GTX.

Teraz sa pozrieme na antialasing (AA), čiže vyhladzovanie hrán, ktoré poskytujú grafické karty GeForce 8. a Radeon HD 2000 série z technického hľadiska. Pre zistenie sample pozícií jednotlivých AA modov sme využili aplikáciu „D3D FSAA Viewer“. Takisto sme použili aj aplikáciu „D3D FSAA Tester“, pomocou ktorej sa dá porovnať kvalita vyhladzovania jednotlivých modov v Direct3D. Porovnanie kvality AA modov sme uskutočnili len v Direct3D, nakoľko sa ich kvalita nelíši od tej v OpenGL. Okrem toho by nebolo možné v OpenGL použiť CFAA mody.

Spolu s novými grafickými čipmi R600 a G80 zavádzajú obaja veľký výrobcovia GPUs aj nové AA mody, ktoré pracujú s mierne inými AA technológiami pre docielenie jedného a toho istého cieľa ako klasické multisampling antialiasing mody. nVidia zaviedla „Coverage Sample Anti-Aliasing“ (CSAA) a ATi „Custom Filter Anti-Aliasing“ (CFAA), ktorému sme sa bližšie venovali už pred pár stranami. V nasledujúcich dvoch tabuľkách máme vymenované a porovnané detailnejšie všetky, podotýkam štandardne dostupné AA mody.

AntiAliasing Radeon HD 2000 série
	Poznámky:	Sample pozície:	Kvalita AA v Direct3D:
1xMSAA (bez AA)	bez AA
2xRGMSAA (2x)	Multisampling otočený (rotated) grid EER: 2x2 automaticky gamakorektívne
4xRGMSAA (4x)	Multisampling otočený (rotated) grid EER: 4x4 automaticky gamakorektívne
8xSGMSAA (8x)	Multisampling ručne optimalizovaný sparse grid EER: 8x8 automaticky gamakorektívne
8xSGMSAA + Narrow Tent CFAA (12xCFAA)	Multisampling + Narrow Tent Custom Filter Anti-Aliasing ručne optimalizovaný sparse grid (MSAA podiel) EER: 8x8 (MSAA podiel) automaticky gamakorektívne
4xSGMSAA + Narrow Tent CFAA (12xEDCFAA)	Multisampling + Edge detect Custom Filter Anti-Aliasing ručne optimalizovaný sparse grid (MSAA podiel) EER: 4x4 (MSAA podiel) automaticky gamakorektívne	x
8xSGMSAA + Wide Tent CFAA (16xCFAA)	Multisampling + Wide Tent Custom Filter Anti-Aliasing ručne optimalizovaný sparse grid (MSAA podiel) EER: 8x8 (MSAA podiel) automaticky gamakorektívne
8xSGMSAA + EDCFAA (24xEDCFAA)	Multisampling + Edge detect Custom Filter Anti-Aliasing ručne optimalizovaný sparse grid (MSAA podiel) EER: 8x8 (MSAA podiel) automaticky gamakorektívne	x

AntiAliasing GeForce 8. série
	Poznámky:	Sample pozície:	Kvalita AA v Direct3D:
1xMSAA (bez AA)	bez AA
2xRGMSAA (2x)	Multisampling otočený (rotated) grid EER: 2x2 gamakorektívne
4xRGMSAA (4x)	Multisampling otočený (rotated) grid EER: 4x4 gamakorektívne
4xSGMSAA + 4xSGCS (8x)	Multisampling + Coverage Sample Anti-Aliasing ručne optimalizovaný sparse grid EER: 8x8 s CSAA, EER: 4x4 bez CSAA gamakorektívne	x
8xSGMSAA (8xQ)	Multisampling ručne optimalizovaný sparse grid EER: 8x8 gamakorektívne
4xSGMSAA + 12xSGCS (16x)	Multisampling + Coverage Sample Anti-Aliasing ručne optimalizovaný sparse grid EER: 16X16 s CSAA, EER: 4x4 bez CSAA gamakorektívne	x
8xSGMSAA + 8xSGCS (16xQ)	Multisampling + Coverage Sample Anti-Aliasing ručne optimalizovaný sparse grid EER: 16X16 s CSAA, EER: 8x8 bez CSAA gamakorektívne	x

Ako vidieť na obrázkoch z FSAA viewera, pri multisampling AA modoch 2x a 4x sa u sérii Radeon HD 2000 prakticky nič nezmenilo voči predchádzajúcej generácii čipov. Mierne sa len posunuli sample pozície 4x rotated grid multisampling AA do stredu, čo ale nemá skoro žiaden vplyv na kvalitu AA. Pri týchto modoch ale ani nebolo nutné vykonať zmeny, nakoľko sú dané pozície samplov takmer ideálne.

Ako som už spomýnal, podporuje Radeon HD 2900XT podobne ako celá séria HD 2000 - 8x sparse grid multisampling antialiasing, ktorý nahradil 6x sparse grid multisampling antialiasing Radeon X1x00 série. 6xSGMSAA už viac séria HD 2000 nepodporuje.

	Poznámky	Sample pozície:	Kvalita AA v Direct3D:
6xSGMSAA (6x)	Multisampling ručne optimalizovaný sparse grid EER: 6x6 (automaticky) gamakorektívne

V tabuľkách máme vždy uvedenú aj hodnotu EER (Edge Equivalent Resolution) daného AA modu. Tento pojem je pravdepodobne menej známy, preto si ho vysvetlíme. EER je ukazovateľ, ktorý charakterizuje pravdepodobne najlepšie teoretickú kvalitu každého AA modu pomocou dvojice čísel. Tieto čísla určujú počet samplov na x a y osi, ktoré sa nenachádzajú, pokiaľ by sme cez stred samplov spravili vodorovnú čiaru, na iných osiach samplov. Samozrejme, existujú aj iné kritériá, ktoré je potrebné splniť, aby mal daný AA mod vysokú kvalitu vyhladzovania. Hlbšie ale nebudeme teraz zachádzať do teórie AA a pozrieme sa najlepšie hneď na príklad k EER.

Nasledovný 4x AA mod má ordered grid a EER 2x2:

Tento 2x multisampling AA mod, ktorý je už ale rotated grid má takisto EER 2x2:

Na koniec obrákov 4x multisamplingu s rotated gridom, ktorý má už EER 4x4:

Z daných obrázov v spojení s teóriou je teda jasné, že 1. AA mod s ordered gridom, má preto EER len hodnoty 2x2, nakoľko sa jednotlivé sample prekrývajú – nachádzajú sa na jednej osi a kvalita vyhladzovania v porovnaní s náročnosťou na výpočet je veľmi zlá. Rovnakú kvalitu vyhladenia možno dosiahnuť aj pomocou 2x multisamplingu s rotated gridom. Vidieť teda prečo sa hodnota ich EER zhoduje. Okrem toho je 2x multisampling s rotated gridom oveľa menej náročný na výpočet – teda pomer kvalia/potrebný výpočtový výkon je oveľa lepší. To je hlavný dôvod prečo sa teraz používajú rotated/sparse gridy a ordered gridy vôbec. Porovnajme si ešte 1. AA mod s posledným 4x multisampling antialiasingom s rotated gridom. Počet samplov sa zhoduje, EER nie – dôvod sme si vysvetlili už vyššie. Ako vidieť z obrázka rotated grid (ako to koniec koncom vyplýva aj jeho názvu), vzniká otočením sample pozícií ordered gridu o určité ° v kladnom alebo zápornom zmysle. Ostáva nám už len sparse grid. Tento grid vzniká manuálnou optimalizáciou. Pozície jednotlivých samplov sa vyberajú viac menej ľubovoľne, aby bolo dosiahnuté lepšie vyhladenie. Sparse gridy sa využívajú hlavne pri AA modoch s vyšším počtom samplov, kde by bol inak problém efektívne rozložiť sample.

U G80 podobne ako u R600 nedošlo k žiadnej zmne 2x, 4x AA modov. Gridy aj sample pozície týchto AA modov sú zhodné s predchádzajúcou generáciou. 8x Multisampling antialiasing G80 s označením 8xQ je takisto ako 8x MSAA R600 sparse grid a predstavuje novinku zavedenú s týmto čipom. EER oboch 8xMSAA variant sa zhoduje – 8x8, ale jednotlivé sample pozície nie.

Pri pohľadoch na FSAA Tester vidieť, že si jednotlivé 8xMSAA mody v rôznych uhloch počínajú mierne lepšie ako konkurencie a jasného víťaza preto nemožno určiť. Úplný výpadok v určitých uhloch sme nezaznamenali, ako to bolo s MSAA modmi v minulosti, čo hodnotíme kladne. Obidvom 8xMSAA modom sa takisto darí v kvalite mierne poraziť 6xMSAA.

Podobne dopadolo aj porovnanie 4x a 2x AA modov medzi týmito grafickými kartami – v určitých uhloch poskytuje konkurencia lepšie vyhladenie, v určitých nie. Výsledky sa aj tu líšia od uhlu k uhlu.

Zameriame sa ešte na CFAA mody, ktorých sample pozície nebolo žiaľ možné zistiť, nakoľko ich nerozozná FSAA viewer a museli sme sa spoľahnúť len na materiál od AMD/ATi. Dobrý dojem zanecháva 12xCFAA, ktorý sa čisto len pri zohľadnení kvality vyhladzovania dostáva nad úroveň 8xMSAA. Vo väčšine prípadov je vyhladenie lepšie a tento mod možno porovnávať aj s 16xAA modom od nVidie, ktorý má CSAA podiel. V praxi kvalitatívne lepší mod – 12x edge detect (ED)CFAA, lebo nespôsobuje blur a tým stratenie drahocenných informácií na celej obrazovke, si počína v FSAA testeri mierne horšie ako 12xCFAA. Blur, ktorý spôsobujú CFAA mody (okrem EDCFAA) možno spozorovať aj v FSAA testeri na písme. 16xCFAA podáva ešte vyššiu kvalitu vyhladenia v FSAA testeri a je nad úrovňou 12xCFAA/16x AA modu od nVidie. V určitých uhloch sa darí 16xCFAA porážať pomerne jednoznačne aj 16xQ AA mod od nVidie. Napriek tomu, že vyhladenie 16xQ je na vysokej úrovni, dokáže 16xCFAA poskytnúť ešte mierne lepší výsledok. Medzi ďalšie výhody CFAA okrem kvality vyhladenia patrí aj nízka náročnosť na kapacitu Vram. Zmiešané pocity zanecháva najvyšší 24x DCFAA mod, ktorý poskytuje v určitých uhloch mierne horší výsledok ako 16xCFAA. Samozrejme, netreba zabúdať, že sa jedná len o aplikáciu na testovanie FSAA a podstatná je hlavne kvalita vyhladenia v hrách, na ktorú sa teraz pozrieme. Zamerali sme sa pri tom hlavne na 8xMSAA a vyššie CFAA mody (>12xCFAA), nakoľko neposkytujú nižšie CFAA mody viditeľné zlepšenie kvality vyhladenia voči MSAA modom, napriek tomu spôsobujú blur na celej obrazovke.

Na testovanie kvality AA sme použili 2 hry, Half Life 2 Epizode One a TES4: Oblivion. Porovnávali sme samozrejme vo viacerých scénach.

Najprv si pozrieme scénu z hry Oblivion „pri strome 1“. Porovnávali sme 4 mody medzi sebou.

4xMSAA:

(Klikni pre obrázok v originálnej veľkosti)

8xMSAA:

(Klikni pre obrázok v originálnej veľkosti)

12xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

16xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

Na obrázkoch vidieť jasné rozdiely medzi 4x a 8xMSAA, kde poskytuje 8x variant lepšiu kvalitu vyhladzovania. Ešte lepšiu kvalitu vyhladzovania poskytuje 12xCFAA mod, spojenú s blurom, ktorý sa dá vidieť na viacerých textúrach. Medzi 12xCFAA a 16xCFAA už nevidieť kvalitívne veľké rozdiely. 16xCFAA variant ale spôsobuje ešte silnejší blur.

Podobný scenár sa opakuje aj v scéne „pri strome 2“.

4xMSAA:

(Klikni pre obrázok v originálnej veľkosti)

8xMSAA:

(Klikni pre obrázok v originálnej veľkosti)

12xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

16xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

Vidieť kvalitatívne lepšie vyhladenie 8xMSAA voči 4xMSAA. 12xCFAA spolu so 16xCFAA sa dokážu presadiť voči 8xMSAA, avšak znovu za cenu bluru, ktorý je veľmi viditeľný hlavne na textúre stromu a zeme.

Nakoľko sú rozdiely medzi 4x a 8xMSAA jasne viditeľné, nebudeme sa viac zaoberať 4xMSAA, ktoré poskytuje Radeon HD 2900XT a zameriame sa už len na kvalitatívne vyššie AA mody.

Dostali sme sa k scéne 3. „pri kostole“. Porovnávali sme 8xMSAA s CFAA a EDCFAA.

8xMSAA:

(Klikni pre obrázok v originálnej veľkosti)

12xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

12xEDCFAA:

(Klikni pre obrázok v originálnej veľkosti)

16xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

24xEDCFAA:

(Klikni pre obrázok v originálnej veľkosti)

8xMSAA poskytuje štandardne vysokú kvalitu vyhladenia hrán, ktorú sa ale darí viditeľne prekonať 12xCFAA. Blur je v tomto prípade neprehliadnuteľný a spôsobuje viditeľné rozostrenie všetkých textúr, hlavne kostola. 12x edge detect CFAA naozaj nespôsobuje blur, ako to bolo sľúbené od AMD/ATi a poskytuje mierne lepšie vyhladenie hrán ako 8xMSAA. Pri porovnaní 12xEDCFAA a 12xCFAA je varianta bez edge detect s kvalitou vyhladenia hrán na tom mierne lepšie. 24xEDCFAA mod je na tom kvalitatívne ešte lepšie ako 12xEDCFAA a nespôsobuje rovnako blur. Rozdiely sú však znovu minimálne. Podobne ako v prípade 12xCFAA a 16xCFAA. 16xCFAA spôsobí ale ešte viditeľnejší blur.

Posledná scéna, ktorú sme použili bola z hry HL 2 Epizode One, aby sme ukázali, že intenzita bluru spôsobená CFAA modmi bez edge detect sa líši v závisloti od použitej hry.

8xMSAA:

(Klikni pre obrázok v originálnej veľkosti)

12xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

12xEDCFAA:

(Klikni pre obrázok v originálnej veľkosti)

16xCFAA:

(Klikni pre obrázok v originálnej veľkosti)

24xEDCFAA:

(Klikni pre obrázok v originálnej veľkosti)

Tentokrát sú rozdiely medzi 8xMSAA a 12xCFAA viditeľnejšie, čo spôsobuje vysoký kontrast scény. 16xCFAA je už len v detailoch lepší ako 12xCFAA. Blur možno spozorovať opäť. 12xEDCFAA neprekvapil a poskytol kvalitatívne vysoký výsledok. Rozdiel v kvalite medzi 12xEDCFAA a 12xCFAA je malý ale v prospech 12xCFAA. 24xEDCFAA dosiahol opäť len mierne lepší výsledok vo vyhladení hrán ako 12xEDCFAA, ale celkovo hroší ako 16xCFAA.

Porovnali sme si teda kvalitu jednotlivých AA modov v hrách ako aj v FSAA testeri. Kvalitné AA mody nám ale veľmi nepomôžu, pokiaľ nemá hardware dostatok výkonu, aby sme ich mohli aj používať pri hraní hier. Logicky preto nasleduje porovnanie prepadu výkonu pri jednotlivých AA modoch. Namerané hodnoty máme zhrnuté v tomto grafe:

Porovnali sme si takisto prepad výkonu Radeon HD 2900XT s GeForce 8800GTX pri jednotlivých MSAA modoch:

Ako vyplýva z grafov je prepad výkonu HD 2900XT so zapnutým MSAA o dosť väčší ako v prípade GeForce 8800GTX, napriek širšej 512-bit zbernici, väčšej priepustnosti a výkonným ROPs.

Pri porovnaní jednotlivých AA modov vidieť veľmi veľkú stratu výkonu pri zapnutí CFAA s edge detect. Dôvod prepadu je spôsob, ktorým EDCFAA vyhľadáva len hrany polygonov (celá scéna je nahraná cez ROPs do shaderov). Pomerne veľké prepady sme zaznamenali aj pri zapnutí CFAA alebo 8xMSAA.

Celkovo sa nám veľmi páčil nový 8xSGMSAA mod Radeon HD 2900XT, ktorý poskytuje vysokú kvalitu vyhladenia a nemusí sa skrývať ani pred 8xMSAA modom konkurencie. CFAA mody bez edge detect poskytujú bezkonkurenčne najlepšie vyhladenie hrán, ktoré by bolo možné dosiahnuť len veľmi ťažko pomocou klasických multisampling box filtrov. Riešia danú problematiku vyhladenia novým spôsobom, ktorý má ale jednu veľkú nevýhodu a tou je spôsobený blur. Rozhodnutie ostáva preto na koncovom užívateľovi, či si potrpí viac na kvalite vyhladenia, alebo mu je strata informácií spôsobená blurom neprijateľná. Odporučili by sme radšej 12xCFAA mod, nakoľko nespôsobuje až taký silný bur ako 16xCFAA a rozdiel v kvalite vyhladenia je minimálny. CFAA mody s edge detect ukazujú ďalšiu cestu, ktorou by sa technológie pre vyhladzovanie hrán mohli vybrať. Nespôsobujú blur, avšak neposkytujú takú vysokú kvalitu vyhladenia ako „čisté“ CFAA mody. Kvalita vyhladenia EDCFAA modov je v hrách napriek tomu na vysokej úrovni. EDCFAA mody sa nebudú pravdepodobne tak často využívať, nakoľko je strata výkonu veľmi vysoká.

Porovnanie AF

Prekvapenie bolo veľké, keď sa verejnosť dozvedela, že GPU G80 nVidii poskytuje anizotropný filter takmer nezávislý na uhloch, ktorý pracuje okrem toho veľmi precízne a nespôsobuje napriek tomu žiadny shimmering textúr. Takmer míľový krok v porovnaní s predchádzajúcou generáciou G7x. Prekonaná bola samozrejme aj generácia Radeon X1x00. Avšak stačí táto kvalita na porazenie AF R600 ? Túto otázku sa pokúsime zodpovedať na nasledujúcich stranách.

Najprv sa porzrieme na obrázky z aplikácie „AF tester“, ktorá zobrazuje, v akých uhloch filtrujú jednotlivé anizotropné filtre grafických kariet matematicky korektne s nastaveným stupňom filtácie a v ktorých nie. Dokonalý 16x anizotropný filter by predstavoval kruh s minimálnym priemerom. Okrem toho sme podrobili jednotlivé anizotropné filtre skúške pri filtrovaní extrémneho prípadu v aplikácii viac známej na testovanie výkonu grafických kariet – 3Dmark05.

Jednotlivé stupňe anizotropnej filtrácie čipu R600:

0xAF:

(Klikni pre obrázok v originálnej veľkosti)

2xAF:

(Klikni pre obrázok v originálnej veľkosti)

4xAF:

(Klikni pre obrázok v originálnej veľkosti)

8xAF:

(Klikni pre obrázok v originálnej veľkosti)

16xAF:

(Klikni pre obrázok v originálnej veľkosti)

Na obrázkoch vidieť, že úplná nezávislosť na uhloch tu nie je. V určitých veľmi ostrých uhloch nefiltruje AF R600 matematicky korektne s nastaveným stupňom AF, ale len s nižším stupňom. Daná skutočnosť je zobrazená v AF testeri pomocou toho, že obrázky nie sú kruhového tvaru, alebo obsahujú rôzne výbežky.

Viaceré drobné vylepšenia AF čipu R600 sa ale uskutočnili voči predchádzajúcej generácii. Radeon HD 2900XT pozná už len jednu štandardne nastavenú kvalitu, ktorá je ešte mierne lepšia ako „HQAF“ z Radeon X1x00 série.

Porovnajme si preto 16xAF s najlepším možným nastavením kvality troch čipov, ktoré reprezentujú celé generácie. R600 s čipom predchádzajúcej generácie R580 a s priamou konkurenciou G80.

16xAF G80 HQ:

(Klikni pre obrázok v originálnej veľkosti)

16xAF G80 Q:

(Klikni pre obrázok v originálnej veľkosti)

16xHQAF R580:

(Klikni pre obrázok v originálnej veľkosti)

16xAF R600:

(Klikni pre obrázok v originálnej veľkosti)

Pri porovnaní čipov R600 a R580 sú hneď viditeľné malé vylepšenia, ktoré sa uskutočnili pri AF R600. Čip R600 filtruje anizotropicky s mierne vyššou presnosťou, čo je zobrazené väčšou homogénnosťou AF „kvetinky“. Okrem toho boli odstránené rôzne bugy, ktoré spôsobovali v určitých hrách shimmering textúr a prepracovaný bol aj LOD sytém. Ostáva nám tu ešte pripomenúť, že grafický ovládač rozozná automaticky AF tester, alebo presnejšie povedané zafarbené MipMap stupňe a prepne preto na trilineárnu filtráciu. V hrách filtruje R600, ale naďalej horšie, len brilineárne. Porovnanie R600 a G80 nám ukáže jasného víťaza v oblasti výberu MipMaps, LOD výpočtov– teda v kritériu „závislosť na uhloch“ a presnosti je G80 ešte stále neporazený.

Zapnutím „Quality“ nie „High Quality“ na G80 dostávame brilineárny filter, ktoré je ako vidieť kvalitatívne horší ako trilineárny filter pri High Quality. Zmena AI v CCC pri čipe R600 nespôsobí žiadnu zmenu výsledného obrázku aplikácie AF tester.

Z hľadiska optimalizácií (v negatívnom zmysle) sú u AF R600 určité malé zapnuté, ktoré sa ale nedajú vypnúť. U AF G80 nie sú zatiaľ známe žiadne optimalizácie, ktoré by sa nedali vypnúť.

Nasledujú obrázky z aplikácie 3Dmark05:

16xAF G80 HQ:

(Klikni pre obrázok v originálnej veľkosti)

16xAF R600 AI-Standard:

(Klikni pre obrázok v originálnej veľkosti)

16xAF R600 AI-Advanced:

(Klikni pre obrázok v originálnej veľkosti)

16xAF R600 AI-Off:

(Klikni pre obrázok v originálnej veľkosti)

Pri testoch sme nastavili samozrejme maximálnu možnú kvalitu, čo znamená v prípade G80: „High Quaity“, 16xAF, trilineárne filtrovanie, 4xMSAA a v prípade R600: AI-off, 16xAF, trilineárne filtrovanie, 4xMSAA.

Posledné textur stages sú v prípade G80 lepšie vyhladené, nakoľko predstavuje tento tunel v 3DMark2005 „worst case“ scenár pre každý anizotropný filter. Prejavuje sa tu oveľa lepšia nezávislosť na uhloch 16x anizotropného filtra G80 ako v prípade R600. Vďaka zapnutým trilineárnym anizotropným filtrom nie je možné rozoznať jednotlivé texture stages.

Uskustočnili sme aj merania prepadu výkonu Radeon HD 2900XT s jednlotlivými stupňami AF:

V ďalšom grafe je prepad výkonu HD 2900XT porovnaný s GeForce 8800GTX:

Čip R600 stráca s narastajúcim stupňom AF viac výkonu ako G80. Vyplýva to z architektúry a ohromného výkonu sampler hardwaru G80. Nie je preto prekvapením, že R600 musí siahať po optimalizáciách, aby vykompenzoval veľký rozdiel vo výkone sampler hardwaru. Nasleduje preto porovnanie AI.

Porovnanie AI

Ani AI nastavenie v CCC sme nenechali bez povšimnutia a zisťovali sme, aký má dopad na kvalitu AF R600, nakoľko sú k jednotlivým nastaveniam priviazané aj optimalizácie. Porovnali sme kvalitu s predchádzajúcim čipom R580 ako aj s G80. Pri testoch sme použili hry TES4: Oblivion a Half Life 2 s aplikovanou modifikáciou textúr „FakeFactory“.

Najprv si porovnáme obrázky z hry HL2 a jednotlivé generácie X1x00/HD 2000. Vysokofrekvenčná textúra štrku predstavuje naozaj ťažkú úlohu pre každý anizotropný filter a odokryje tak každú optimalizáciu.Obrázky R600 budeme porovnávať s referenčným obrázkom uskutočneným na karte R580 s nastavením AI-off.

AI-Off R580:

(Klikni pre obrázok v originálnej veľkosti)

AI-Standard R600:

(Klikni pre obrázok v originálnej veľkosti)

AI-Advanced R600:

(Klikni pre obrázok v originálnej veľkosti)

AI-Off R600:

(Klikni pre obrázok v originálnej veľkosti)

Prvý obrázok R580 s AI-off vyzerá celkovo veľmi homogénne a nie je možné zaznamenať shimmering alebo skreslenie farby. Ďalší obrázok uskutočnený na R600 s nastavením AI-standard sa už viditeľne odlišuje od AI-off. Každý tento rozdiel spôsobuje shimmering pri pohybe. Okrem toho tlačí hráč texture band pred sebou, ktorý je jasne viditeľný. Podobný výsledok dosahuje aj nastavenie AI-advanced na R600.

Najzaujímavejšie je ale porovnanie AI-off R580 s AI-off R600. R580 filtruje textúry v tomto prípade skoro dokonale, ostro a takmer bez shimmeringu. Obrázko AI-off na R600 síce vykazuje menej optimalizácií ako nastavenie AI-standard alebo advanced, avšak kvalitu AI-off R580 sa nedarí dosiahnuť. Dôvodom môže byť bug v ovládači alebo snaha šetriť fillrate za každú cenu. Oboje je možné.

Ostáva nám ešte scéna z hry TES4: Oblivion a porovnanie R600 s G80.

HQ G80:

(Klikni pre obrázok v originálnej veľkosti)

AI-Standard R600:

(Klikni pre obrázok v originálnej veľkosti)

AI-Advanced R600:

(Klikni pre obrázok v originálnej veľkosti)

AI-Off R600:

(Klikni pre obrázok v originálnej veľkosti)

Treba pripomenúť ešte podstatnú vec, že screenshot nedokáže nikdy úplne odzrkadliť reálnu situáciu, ktorá nastáva pri pohybe, lebo optimalizácie spôsobia vo väčšine prípadov ostrosť, ktorá je na obrázkoch hodnotená kladne. Opak je ale pravdou, nakoľko je ostrosť často dôvodom shimmeringu textúr.

Rozdiely na obrázkoch sú malé, avšak prítomné. G80 poskytuje s nastavením „High Quality“ najlepšiu kvalitu vyhladenia textúr, bez toho aby bol spôsobený shimmering. Podobne dobre pracuje aj trilineárny filter. Z obrázko vidieť takisto, že nastavenie AI-off poskytuje v prípade R600 najväčšiu možnú kvalitu a ostrosť vyhladenia textúr, ktorá sa ale nevyrovná kvalite AF čipu G80. Na R600 sme zaznamenali ešte mierny shimmering textúr, napriek tomu, že trilineárny filter pracuje bez negatívnych pripomienok.

Pre lepšie porovnanie sme vyhotovili aj video záznamy z danej scény v pohybe. Veľkosť jednotlivých súborov je ale okolo 40MB, nakoľko sme nepoužili kompresiu a tým nezničili podstatné rozdiely.

R600 AI-Standard video
R600 AI-Advanced video
R600 AI-Off video
G80 HQ video

Anizotropný filter G80 pracuje takmer dokonale. Nespôsobuje skoro nikdy shimmering, nie je skoro závislý na uhloch – poskytuje preto takmer dokonalú a momentálne najlepšiu kvalitu AF. Túto kvalitu nedosahuje R600 ani s nastavením AI-off, nakoľko musí v určitých prípadoch bojovať so shimmeringom textúr. Miernu závislosť na uhloch si pri tom takmer nevšimnete. Trilineárny filter pracuje v oboch prípadoch veľmi dobre. G80 preto ostáva stále neporazený v kvalite anizotropného filtra.

Zhrnutie a záver

Milióny dolárov vložených počas 4 rokov do vývoja získali svoju podobu. To najlepšie z predchádzajúcich generácií spojené v jednom čipe s názvom „R600“. Dámy a páni, bola predstavená nová Radeon HD 2900XT. Po dlhom období sa teda objavila konkurencia pre high end čip G80 od nVidii. Na predchádzajúcich stranách sme si pozreli komplexne čip, grafickú kartu, rozobrali sme si jednotlivé časti čipu, porovnali sme si kvalitu obrazu a ešte veľa iného. R600 predstavuje podobne ako G80 novú základovú architektúru 3. generácie. Z architektonického hľadiska je čip určite zaujímavý a skrýva ešte veľký potenciál.

Jednotlivé časti čipu ale predstavujú skôr evolúciu ako revolúciu. AMD/ATi spravila potrebné kroky v shader core pre realizáciu plne „superskalárnej“ architektúri. 5 sub skalárnych ALUs v jednotlivých shader jednotkách a register, ktorý nevykazuje stratu výkonu ani pri skalárnom prístupe. Sampler hardware teraz podporuje nové schopnosti, formáty a vykazuje dobrý výkon s často používanými viac kanálovými formátmi. O prísun informácií do sampler hardware a shader cluterov sa stará evolúcia RingBus pamäťového radiča. RingBus má teraz interne šírku 1024-bit, externe 512-bit na ktorý je napojených 16 GDDR 3 pamäťových čipov.

Kto povedal, že tento rok si nebudeme môcť kúpiť kartu s 512-bit externou zbernicou ? AMD/ATi sa to podarilo a postavila nový pamäťový radič s rovnakou veľkosťou ako starý. Samozrejme, pomohol tomu aj nový výrobný proces čipu. Vďaka širokej zbernici nemusela AMD/ATi stiahnuť po najrýchlejších GDDR 4 pamätiach, ale vystačila si aj s GDDR3. Čip R600 na grafickej karte Radeon HD 2900XT dosahuje preto maximálnu priepustnosť vyše 100GB/s.

Dostávame sa k ROPs, ktoré sú navrhnuté a optimalizované pre 4xMSAA. Podporujú vysoko precízne povrchové formáty a až 8xMSAA. 8xMSAA je kvalitatívne na veľmi vysokej úrovni, vyhladzuje hrany v každom uhle takmer dokonale a nevykazuje žiadne slabiny. Hardware sample resolve ale nie je vykonávaný rýchlo, bez straty výkonu, pre tiles s inou ako maximálnou kompresiou. 1. generácia CFAA zanecháva takisto zmiešané pocity a dojem niečoho, čo bolo uskutočnené za veľmi krátky čas. V konečnom dôsledku teda nedokáže koncept jednoznačne konkurovať štandardnému hardware resolve a bežne používaným filtrom, aj preto, že jednotlivé CFAA mody spôsobujú intenzívny bur na celej obrazovke. EDCFAA je určite zaujímavý variant a nový spôsob riešenia, bez bluru, ale výkon hardwaru je vo väčšine prípadov nedostačújúci pre tento AA mod.

Minimálne zmeny nastali u anizotropného filtra R600, ktorý sa preto nevie presadiť voči takmer dokonalému AF čipu G80. Okrem toho je v pohybe viditeľný shimmering textúr, ktorý sa na G80 takmer vôbec nevyskytuje. Celkovo teda stráca AMD/ATi pozíciu lídra v oblasti kvality obrazu v prospech nVidii a jej GeForce 8. sérii.

Celá séria Radeon HD 2000 obsahuje na počudovanie plne programovateľný tesselátor, ktorý sa nachádza vo „front end“ čipu. Momentálne nie je podporovaný v Direct3D a zmení sa to pravdepodobne až príchodom Dirct3D 11. Tesselátor sa napriek tomu dá plne programovať.

Suma sumárum, obsahuje R600 shader core s obrovským aritmetickým výkonom, sampler hardware, ktorý svojím výkonom zaostáva za G80 a ROPs, ktoré sú pravdepodobne limitujúcim faktorom. Odporúčaná cena karty od AMD/ATi je aj preto 399$. Za rovnakú cenu sa dá zakúpiť priamy konkurent GeForce 8800GTS. Takýto „záver“ ale nebol pravdepodobne plánovaný, lebo keby ste sa pred rokom opýtali zamestnanca ATi, aký je cieľ R600, tak by odpovedal: „absolútna dominancia v high ende voči nVidii“.

Poďakovania:

Na záver by som sa chcel ešte poďakovať

• hlavne užívateľovi „mirke“, za poskytnutie fotodokumentácie a testovanie novej grafickej karty od AMD/ATi. Nakoľko by bez jeho pomoci nebolo možné uskutočniť túto recenziu v takej podobe ako je dnes.
• Jiřímu Součekovi, za poskytnutie dôležitých informácií a cenných súborov .
• Diskusnému fóru beyond3D, za cenné rady
• a samozrejme všetkým Vám, ktorý ste mi pomohli s realizáciou recenzie.

Ďakujem :)

Komentáre (18)

subz3ro

1.8.2007 - 13:04

Good work, cruxo. Opäť sa ukazuje, kto je u nás odborníkom v oblasti technológií grafických kariet :)

Odpovedať

gabriel

1.8.2007 - 13:46

Tak musim pochvalit -> clanok je po stranke obsahovej fantasticky na svoje si pridu urcite vsetci ako bezni tak aj velmi narocni citatelia. Co je vsak este lepsie je forma akou je clanok pisany -> tentokrat je to resp. to precita aj bezny clovek.

Odpovedať

epto

1.8.2007 - 13:53

fiha. riadne dlhy clanok. aj ked musim sa priznat, mne obycajnemu cloveku vela pojmov nic nehovorilo. nemozem povedat, ze som v oblasti PC "lama". PC pouzivam uz roky, zhruba 15-20 som ich uz aj poskladal. ale moj zaujem o vykonnu graficku kartu uz nie je na prvom mieste nakolko PC vyuzivam hlavne na pracu. tymto nechcem clanok kritizovat, len ze som niektore casti rovno preskocil a precital az vyhodnotenie.

Odpovedať

Pavol Bobik

1.8.2007 - 14:37

Ano, dobra recenzia, klobu dole :)

Odpovedať

MichiGen

1.8.2007 - 14:45

Naozaj skvely rozbor, myslim ze vsetko dolezite sa podarilo v tejto recenzii obsiahnut :)

Odpovedať

koro

1.8.2007 - 15:12

good job

Odpovedať

Ryko

1.8.2007 - 16:28

Tak musim zatlieskat cruxovi... uz davno som necital tak kvalitne spracovyn clanok v oblasti graf.kariet... absoutne vycerpavajuce informacie o zlozeni a fungovani chipu... imho by to mozno chcelo vysvetlit niektore odborne pojmy, aby bol clanok pristupnejsi pre sirsie spektrum ludi... lae zas takych clankov je na nete dost... este raz vdaka za squele citanie...

Odpovedať

glide

1.8.2007 - 18:14

proste perfektne

Odpovedať

thimy

1.8.2007 - 20:00

Nebolo by odveci opravit: 12 - Custom Filter AntiAlaising Premysliet zakladnu myslienku, spracovat podklady a vôbec napisat takyto clanok muselo zabrat kopu casu. fakt respect

Odpovedať

A2C

1.8.2007 - 20:30

Klaniam sa

Odpovedať

noben

1.8.2007 - 22:05

....asi nepoviem nič, lebo mám stále otvorené ústa a oči vyplešťené na monitore....

Odpovedať

cpy

2.8.2007 - 20:58

Musim uznat tak dobre a vystizne zrobenu recenziu som este necital (alebo si nepamatam zeby som taku cital) Tie videa na porovnanie su fakt vybornym doplnkom recenzie.

Odpovedať

teho

3.8.2007 - 10:18

vrela vdaka za super clanok na slovenskom nete nevidaneee.

Odpovedať

Dwarden

3.8.2007 - 15:36

clanek pekny, ale skoda tech starych ovladacu, bylo by fajn otestovat znovu s nadchazejicim ovladaci 7.8 (uz RC3 ukazuje znacne zlepseni ve vykonu 2xxx serie pri pouziti AA, take je tu novy AA mod k dispozici od ovladacu 7.7)

Odpovedať

crux2005

3.8.2007 - 17:53

Žiaľ, potom by sa dalo čakať v podstate donekonečna. Samozrejme na prepad výkon s AA a novými ovládačmi sa v blízkej budúcnosti pozrieme ;-) "take je tu novy AA mod k dispozici od ovladacu 7.7" Aký nový AA mod máte na mysli ?

Odpovedať

mirke

3.8.2007 - 18:40

Tak konecne som si nasiel cas to precitat a musim uznat, ze z mojho pohladu sa jedna o kvalitnu a rozsiahlu recenziu, ktora pokial viem nema na nete obdoby. Patri ti velka poklona odo mna. Inac velmi rad som pomohol, mozno aj nabuduce zase s novym highendo od ATI :D

Odpovedať

Dwarden

4.8.2007 - 00:21

nejde mi o nekonecne cekani spis o o to, ze test byl proveden na 7.5 coz znaci 3 mesice zpet tj. otazka zni proc ne 7.6 nebo 7.7 jinak ten novy AA je popsan v seznamu zmen u 7.7 " 12x and 24x Anti-Aliasing support for the ATI Radeon™ HD 2900 XT and ATI Radeon™ HD 2600 Series This release of Catalyst™ introduces support for 12X and 24X Anti-Aliasing for the ATI Radeon™ HD 2900 XT, and ATI Radeon™ HD 2600 Series. These new Anti-Aliasing settings are available through the new Anti-Aliasing Edge Detect Filter. Selecting 4X Anti-Aliasing plus selecting the Edge Detect filter deliver the equivalent of 12X Anti-Aliasing. Selecting 8X Anti-Aliasing plus selecting the Edge Detect filter deliver the equivalent of 24X Anti-Aliasing. " dalsi co jsem mel na mysli je moznost aktualizace vysledku testu napr. tedy az vyjdou 7.8 s komentarem typu "AMD.ATI evidentne zlepsuje/zhorsuje ovladace" :) a napriklad pridat test kvality prehravani videa :)

Odpovedať

crux2005

6.8.2007 - 10:36

Ovládač Catalyst 7.5 sme boli nútený použiť, nakoľko predstavoval v dobe testovania najaktuálnejšie WHQL ovládač. Catalysty 7.7 sme nemohli použiť nakoľko sa objavili až testne pred uverejnením článku. Okrem toho sme sa pozreli aj na výkon Catalystov 7.6, avšak v daných testoch sme nezaznamenali voči Catalystom 7.5 žiadne výkonnostné zmeny. Pokiaľ si pozorne čítal, tak si si určite všimol, že som túto zmenu spomenul v článku ;-) "Okrem toho je od Catalystu 7.7 dostupný štandardne aj edge detect mód. (Poznámka: my sme museli pre testovanie kvality EDCFAA použiť ešte beta ovládače a špeciálnu utilitku, ktorá nám túto možnosť sprístupnila)" Ďakujem za návrhy, budem určite rozmýšlať na ich možnom spracovaní. btw: každá pozitívna odoza ma samozrejme teší :)

Odpovedať

R600 pod drobnohľadom

Celý článok

Úvod

Čip „R600“

Grafická karta Radeon HD 2900XT

Spotreba, teploty, hlučnosť ...

Schéma jadra „R600“

Command processor a Thread setup

Setup engine

Threading a Branching

Shader core

Sampler hardware

ROPs

Custom Filter Antialiasing

Testovacia zostava

Benchmark výsledky

Všeobecné benchmarky výsledky

Porovnanie AA

Porovnanie AF

Porovnanie AI

Zhrnutie a záver

Komentáre (18)

subz3ro

gabriel

epto

Pavol Bobik

MichiGen

koro

Ryko

glide

thimy

A2C

noben

cpy

teho

Dwarden

crux2005

mirke

Dwarden

crux2005

Pridať nový komentár