Szanowny Użytkowniku,
Informujemy, że za 30 dni tj. 30 listopada 2024 r. serwis internetowy Forum PC LAB zostanie zamknięty.
Administrator Serwisu Forum PC LAB - Ringier Axel Springer Polska sp. z o.o. z siedzibą w Warszawie: wypowiada całość usług Serwisu Forum PC LAB z zachowaniem miesięcznego okresu wypowiedzenia.
Administrator Serwisu Forum PC LAB informuje, że:
- Z dniem 29 listopada 2024 r. zakończy się świadczenie wszystkich usług Serwisu Forum PC LAB. Ważną przyczyną uzasadniającą wypowiedzenie jest zamknięcie Serwisu Forum PC LAB
- Dotychczas zamowione przez Użytkownika usługi Serwisu Forum PC LAB będą świadczone w okresie wypowiedzenia tj. do dnia 29 listopada 2024 r.
- Po ogłoszeniu zamknięcia Serwisu Forum od dnia 30 października 2024 r. zakładanie nowych kont w serwisie Forum PC LAB nie będzie możliwe
- Wraz z zamknięciem Serwisu Forum PC LAB, tj. dnia 29 listopada 2024 r. nie będzie już dostępny katalog treści Forum PC LAB. Do tego czasu Użytkownicy Forum PC LAB mają dostęp do swoich treści w zakładce "Profil", gdzie mają możliwość ich skopiowania lub archiwizowania w formie screenshotów.
- Administrator danych osobowych Użytkowników - Ringier Axel Springer Polska sp. z o.o. z siedzibą w Warszawie zapewnia realizację praw podmiotów danych osobowych przez cały okres świadczenia usług Serwisu Forum PC LAB. Szczegółowe informacje znajdziesz w Polityce Prywatności
Administrator informuje, iż wraz z zamknięciem Serwisu Forum PC LAB, dane osobowe Użytkowników Serwisu Forum PC LAB zostaną trwale usunięte ze względu na brak podstawy ich dalszego przetwarzania. Proces trwałego usuwania danych z kopii zapasowych może przekroczyć termin zamknięcia Forum PC LAB o kilka miesięcy. Wyjątek może stanowić przetwarzanie danych użytkownika do czasu zakończenia toczących się postepowań.
AMDK11
-
Liczba zawartości
1184 -
Rejestracja
-
Ostatnia wizyta
Odpowiedzi dodane przez AMDK11
-
-
I to wlasnie idzie w tym kierunku, zeby te rdzenie byly pelnoprawne, skalowanie staloprzecinkowe jest dobre, bedzie lepsze a FPU dostanie optymalizacje pod nizsza energie miejsce i nie ograniczy to mocno potencjalu taktowania. Najwiekszy problem bedzie z wydajnoscia zmiennoprzecinkowa, ale AMD wyraznie tutaj niweluje role FPU FMAC na korzysc APU.
4 drozne dekodowanie da 10% na watek czasem moze wiecej w grach chyba najmniej wazniejsza jest multiplikacja jednostek, rdzeni

No nie do końca tak jest poniewaz klastry Integer nie są autonomicznymi rdzeniami gdyż mają wspólny Frontend. AMD poprostu chce podnieść wydnajność pojedynczego wątku jak i efektywność w skalowaniu Modułu w wielowątkowości dodając dekodery x86 jak i rozbudowe pewnych elementów architektury które są wąskim gardłem.
Więc nigdy do tego nie dojdzie by Moduł stał się Dual-Core ponieważ był by to powrót do klasycznej koncepcji Rdzenia x86.
Założeniem Rdzenia x86 na architekturze CMT(1Moduł/2T) jest przetwarzanie dwóch wątków na pojedynczym rdzeniu x86 poprzez dwa klastry integer zamiast jednego szerokiego.
-
Myślę że min we Frontend są wąskie gardła które powodują spadek wydajności pojedynczego wątku przy opciążeniu Modułu dwoma wątkami.
-
Zależy też czy w takim teście opciążone są klastry integer czy blok FPU.
-
Wiem tylko chciałem się upewnić czy aby nie jest to fatamorgana

Więc jednak tak jak
przypuszczałem jednostek
wykonawczych w jednym
Module/2T Bulldozer/
Piledriver jest cała masa (8
jednostek arytmetyczno-
logicznych(4ALU 4AGU) a
na pojedynczy wątek
przypadają 4(klaster Integer
(2ALU 2AGU)).
Teoretycznie każdy klaster
Integer(dwa w Module)
może przetworzyć 4 mikro-
operacje ale w praktyce 4
Dekodery x86 o
teoretycznych
możliwościach 8 mikro-
operacji puszczają 4 mikro-
operacje na dwa klastry
integer czyli tylko dwie
mikro-operacje na
pojedynczy wątek 2ALU
2AGU zamiast 4 mikro-operacji.
W rezultacie Moduł BD
osiąga max 4 IPC zamiast
teoretycznie 8 IPC. Śmiem
twierdzić że obecnie 4
dekodry x86 w M BD są w
rzeczywistości przypisane na
stałe po dwa na klaster
integer przez co głównie w
pojedynczym wątku
osiągane są max 2 IPC
zamiast teoretycznie 4 IPC
(marnotrawstwo jednostek
wykonawczych).
Zaimplementowanie 8
dekoderów x86(Core SB/IB 4 dekodery x86) plus szereg innych
poprawek mikroarchitektury w Module
Steamroller (4 dekodery
x86 w Module BD/PD)
pozwoli zbliżyć się do
teoretycznych 8 IPC dla 2T(Core SB/IB ~5 IPC) i
4 IPC dla 1T(pojedynczy
wątek) dzięki bardziej
optymalnemu
wykorzystaniu jednostek
wykonawczych 4ALU 4AGU
(8 jednostek
stałoprzecinkowych/
arytmetyczno-logicznych).
Niech jeszcze dopracują
FPU i będzie naprawdę ok

O ile w pojedynczym wątku Steamroller prawdopodobnie będzie mniej wydajny od SB/IB to w 2T ma szanse być znacznie wydajniejszy.
-
Czy ja dobrze widzę że Moduł Steamroller dostanie sumarycznie 8 dekoderów x86(2x 4) względem 4(?2x 2?) dekoderów x86 Modułu Bulldozer/Piledriver?
-
całości nie będę komętowal bo nie ma sensu.
FX nie będę bronił ,ale wy sobie nie zdajecie sprawy ze złożoności procesora .Płacz tam tam i tam.
Popatrz przykładowo dodanie następnych dc wiąże się z bardzo wysokim zwiększeniem zapotrzebowania na energię czy zastąpienie na 6/2 core. Jest to skok 1/3 na samym dekoderze w poborze prądu.
Oczywiście że zdaje sobie sprawe że to o czym piszemy to tylko uogolnienia bo mikroarchitektura CPU to coś niezwykle złożonego.
Co do dekoderów w Module to przez większość czasu puszaczją 4 mikro-operacje na bloki wykonawcze w których jest 8 jednostek integer(4ALU, 4AGU) a jest jeszcze FPU więc dekodery też niedomagają ale zapewne jeszcze inne niedociągnięcia jak i braki mają wpływ na niską wydajność.
-
W teorii FX-8150 moze wykonac 16 instrukcji na zegar a Phenom 1100T 15 ? Zakladajac, ze bedzie maksymalnie obciazony.
Mniej więcej tak.
Swoją drogą uważam że Bulldozer miał mieć znacznie wyższe IPC i pewno z taką myślą była ta architektóra projektowana ale że gdzieś po drodze nastąpiły cięcia kosztów?Zwolnienia ważnych inżynierów?... więc pozostałością po pierwszym projekcie jest wiele niewykorzystywanych jedostek wykonawczych jak i innych elementów architektury które także nie działają a ciągną papu albo są niedopracowane.
-
Pamiętam jak AMD deklarowało że Bulldozer ma wyższe IPC i wbrew pozorom dotrzymali słowa tyle że nie tak jakby wszyscy chcieli. Moduł BD(Rdzeń CMT)(4 IPC) miał zastąpić wysłużony już Rdzeń K10(2.5 IPC)

Ale że wykonanie architektóry BD jest jakie jest to i FX jest jaki jest niestety.
-
FPU w buldim fizycznie jest 4 nie 8.To przetważanie 2 wątków FP nie wychodzi mu źle skoro jest sporo szybsze od phenoma x4 i niewiele wolniejsze zegar w zegar od x6.
Mówimy przecież cały czas o fizycznie 4 jednostkach. Nie mają one wydajności intela. Najwięcej jednak buldi stracił przy wydajności int.
Mimo fizycznie 8 "rdzeni" przez skopany frontend, stosunkowa mała pamięć l1-16kb dla danych, oraz również nie wielką bo dzieloną na 2 "rdzenie"
l1 - 64kb dla instrukcji.
Buldi wygląda jak wiejska bryka z 8 konimi ze zwalona uprzężą do której nie można ich wszystkich na raz podpiąć.
Co do wydajności w tzw. aplikacjach rozrywkowych mam dziwne uczucie.
Przy testach normalnych aplikacji które obciążą mi na 100% przewaga intela nie jest już kosmiczna i jest ok.
Mogę w tedy powiedzieć że procesor x jest wolniejszy od y przy pełnym jego wykożystaniu o n-ą wartość.
Niestety gdy widzę np. wiedźmina gdy większość procka leży odłogiem męcząc 1 lub 2 wątki nie powiem przecież
że procesor jest "wolny".
Skoro pracuje tylko jego 1/4, reszta leży i wypoczywa, to samo skyrim. Ok. Klienta to nie obchodzi. Ale pozycje naprawdę wielowątkowe
nie mają tragicznej wydajności.
Moduł BD(Rdzeń CMT) w założeniach miał być odwpowiedzią na Rdzeń z HT więc można by powiedzieć że jeden szeroki blok integer został podzielony na dwa mniejsze a siłą rzeczy w tej koncepcji potencjalna wydajność jednowątkowa zeszła na dalszy plan.
W każdym z klastrów Integer znajdują się 2ALU i 2AGU więc w teorii w jednym takcie zegarowym mogą być równolegle obciążone 4 jednostki stałoprzecinkowe na wątek ale niestety tak nie jest.
W wielowątkowości Moduł dysponuje dwoma takimi klastrami integer łącznie dysponując 4ALU i 4AGU więc w jednym takcie zegarowym teoretycznie można obciążyć równolegle aż 8 jednostek stałoprzecinkowych no ale tak nie jest.
Co do bloku FPU to chodziło mi o możliwości w SSE/AVX czyli 2x 128bit a pojedyncza instrukcja 128b BD jest mnijej wydajna niż w K10 o SB niewspominając.
Moduł BD
ma 8 jednostek stałoprzecinkowych z tego do pojedynczego wątku 4.
Rdzeń K10 ma 6(3ALU/AGU) jednostek stałoprzecinkowych tyle że tylko 3 mogą być równolegle obciążone na takt zegarowy.
Rdzeń SB ma 5 jednostek stałoprzecinkowych(3ALU i 2AGU) zarówno dla pojedynczego jak i wielu wątków.
Jak widać w pojedynczym wątku Moduł BD powinien być mniej wydajny ale w wielowątkowości za to spokojnie wydajniejszy od Rdzenia SB(patrząc na ilość jednostek wykonawczych w Module BD/Rdzeń SB) ale tak nie jest.
Ciekawe że Moduł BD dostał tyle zasobów w postaci ALU, AGU, szeroki FPU a ma tylko o jeden dekoder więcej od K10(3 Dekodery x86) nie wspominając o tym samym L1I 64KB 2-way i małym L1D 2x 16KB 4-way.
Moduł BD 4 IPC z tego na wątek przypada pewnie do 2 IPC
Rdzeń K10 ~2.5 IPC
Rdzeń SB ~5 IPC
Przy zasobch w Module, BD powinen mieć spokojnie 6-7 IPC a ma marne 4 przez co musieli wyżyłować zegar.
Dodam że Moduł ma 4 Dekodery x86 (8 mikro-operacji) natomiast Rdzeń K10 3 Dekodery x86(6 mikro-operacji) a Rdzeń SB 4 Dekodery x86(7 mikro-operacji).
-
Przecież nie napisałem, że to jedyna przyczyna. Wyraźnie powiedziałem, że to RÓWNIEŻ odbiło się na wydajności
.Sorry mój błąd troche z pośpiechu pisałem.
Swoją drogą ciekawe jak się sytuacja potoczy z architekturą Bulldozer wraz z następnymi generacjami.
-
Nie zapominajcie też o przejściu na write-back w przypadku L1, co również się odbiło na wydajności.
Myślę że L1 to tylko jedna z przyczyn niskiej wydajności.
-
Faktem jest że wydajność FPU(jak i INT) BD w pojedynczym wątku jest niska przy wyższym taktowaniu.
Moduł Bulldozer powinien przetwarzać ok 6-7 instrukcji na takt zegarowy a przetwarza max 4 podczas gdy Core SB ~5.
Moduł muszą poprawić/rozbudować by wydajność była konkurencyjna nawet i w pojedynczym wątku bo widać że jednostki wykonawcze leżą odłogiem a co jest tego przyczyną to w tej chwili tylko ciekawostka/szczegół i dopuki w AMD się z tym nieuporają to będzie cienko.
-
AMD FX Demo Edition?
Ale spokojnie za jakieś dwie może trzy generacje to naprawią i będzie wtedy FX Full Edition

A tak na poważnie to jeśli moduł przetwarza 4 instrukcje to w pojedynczym wątku pewnie 2. Bulldozer w obecnej postaci jak dla mnie winien być chipem eksperymentalnym i to dobrych kilka lat temu.
-
Czysto teoretycznie ten dekoder jest w stanie "wyrzucić" 8 mikro-instrukcji, co odpowiadałoby potrzebom jednostek ALU i AGU. Nie zapominajmy jednak, że w module jest także FPU... Dochodzi do tego dość słabe przewidywanie skoków oraz inne skopane rzeczy. Efekt, jaki jest, każdy widzi

.Teoretycznie tak ale w praktyce rzadko się zdarza by 4 dekodery x86 puściły więcej niż 4 mikro-instrukcje.
Zresztą samo AMD w dokumentacji h15 BD dla programistów przyznaje że Moduł BD przetwarza max 4 instrukcje na takt zegarowy a dochodzi do tego FPU które także wydajnością niegrzeszy jakby przez większość czasu przetwarzana była 1 instrukcja 128bit podczas gdy fizycznie jest 2x128bit.
Dodam że Rdzeń Sandy Bridge z HT przetwarza ok ~5 instrukcji na takt zegarowy.
-
Wygląda to tak jakby przez wiekszość czasu obciążonych było połowe jednostek stałoprzecinkowych.
Moduł BD sumarycznie dysponuje 4ALU i 4AGU czyli na wątek przypada 2ALU i 2AGU. Jeśli na każdy klaster Integer(2 w Module) przypisane są na stałe 2 Dekodery x86(4 na Moduł) to znaczy że przez wiekszość czasu kod przetwarzany jest na 4 jednostkach stałoprzecinkowych czyli 1ALU i 1AGU na wątek więc min. to by tłumaczyło niską wydajność.
-
1.08.2012
"Firma AMD
poinformowała, że jej
szeregi ponownie zasilił Jim
Keller - jeden z najlepszych
inżynierów w branży CPU,
wcześniej pracujący w AMD
w latach 1998-2004. Z
chwilą powrotu w AMD
objął funkcję wiceprezesa
oraz głównego architekta
mikroprocesorów. Jim
Keller to prawdziwy
weteran i uznany specjalista
w dziedzinie rozwoju
procesorów - w latach 80 i
90 pracował w firmie DEC,
gdzie był jedną z
ważniejszych osób
odpowiedzialnych za
rozwój układów z serii
Alpha. W latach 1998-1999
na krótko przeniósł się do
AMD wnosząc spory wkład
w pracę nad architekturą
K7 (procesory Athlon).
Następnie powrócił do
AMD, gdzie był główną
osobą kierującą pracami
nad architekturą K8 i
procesorami Athlon 64 i
Athlon 64 X2. AMD opuścił
w 2004 roku przenosząc się
do PA Semiconductor, a
ostatnio pracował w Apple
nad układami A4 i A5."
-
Up
Sprawdzałeś programem OCCT?
-
Moduł Bulldozer(Rdzeń x86 w architekturze CMT(Cluster Multi-
threading))
Blok Front-end z 4-ma Dekoderami x86(4 złożone)
Podwójny blok Integer(CMT) z 4ALU i 4AGLU(dwa klastry Integer(marketingowe rdzenie) po 2ALU i 2AGLU na pojedynczy wątek)
Blok FPU 2x128bit
FMAC(2x128bit
SSE, AVX lub 1x256bit AVX) + FMA4 i XOP
Dla porównania:
Rdzeń x86 K10
Blok Front-end z 3-ma
Dekoderami x86(3
złożone)
Blok Integer składający
się z 3ALU/3AGU(z tego tylko trzy jednocześnie) na pojedynczy wątek
Blok FPU 1x128bit SSE
Rdzeń x86 Sandy Bridge
z technologią HT(Hyper-Threading(SMT(Simultaneous
Multi-threading))
Blok Front-end z 4-ma Dekoderami x86(1 bardziej złożony i 3
proste)
Blok Integer składający się z 3ALU i 2AGU na pojedynczy wątek jak i dwa wątki(HT(SMT))
Blok FPU 1x128bit SSE, AVX lub 1x256bit AVX
Widać po testach jak bardzo architektura Bulldozer jest niedopracowana.
Jeżeli chodzi o te rzekome testy Trinity w GeekBench to wątpię by były prawdziwe bo to oznaczałoby że w pojedynczym wątku Moduł PD jest wydajniejszy zegar w zegar od Rdzenia K10 a w to jakoś mi się nie chce wierzyć.
-
Jakieś źródło?
Brakuje jeszcze tylko liczby dla buldozera.
Wystarczy przejżeć recenzje Llano.
W pojedynczym Rdzeniu Llano ilość tranzystorów zwiększyła się do 35 mln z 32-3 mln Deneba.
Te dane są znane już od bardzo dawna.
Powtótrze: Rdzęń K10 składa się z 32-3 mln tranzystorów a w Llano doszły pewne usprawnienia i elementy które zwiększyły złożoność Rdzenia do 35 mln tranzystorów.
Moduł BD niech ma ok ~80 mln tranzystorów a to ponad 2x więcej niż Rdzeń Llano(35mln) więc wychodzi że architektura Bulldozer jest mocno niedopracowana(wydajność).
-
Dzięki za linka, ta wypowiedź potwierdza prawdziwość pobieżnych obserwacji ze ten procesor jest jakiś dziwny (foto struktury krzemowej, umieszczenia bloków, rozmiaru etc.) ale to nie wszystko..
Nie lubie jednak tak pokrętnych porównań "module with 2MB unified L2 cache contains 213 million transistors and is 30.9mm2 large. By contrast, die size of one processing engine of Llano processor (11-layer 32nm SOI, K10.5+ micro-architecture) is 9.69mm2 (without L2 cache)" bo nic nie obrazuje!
Mi wyszło szacunkowo 2MB L2 117mln(zdaje sie że ktoś wklajał o ile pamietam 124mln..wiec podobnie) http://pclab.pl/kom61234.html=511046 czyli średnio 7 tranzystora na komórke z uwzglednieniem logiki sterujacej.
Nie znam ilości tranzystorów jaka zajmuje rdzeń Phenoma ale jeśli LLano ma 1,45mld na 227mm2 to daje 6,3mln/mm2 tranzystorów czyli rdzeń LLano(deneba,thubana) to ok 62mln tranzystorów.
Buldozer 1 moduł => 213mln-124mln cache(lub 117)= 89mln tranzystorów w samym module (przy korzystnej wersji) vs 62mln tranzystorów jednego rdzenia phenoma. Powedzmy że sumaryczne IPC(bez uwzglednienia przewagi taktowań) 2 rdzeniowego modułu Buldozera z recenzji to 1,33 rdzenia Phenoma(to benchmarkowo potwierdza matematyczne wyliczenia np. pawłapclab w komentach)
to analizujac sensowność zmian..wychodzi ona na ZERO! bo moduł zajmuje 1,5x większą powierzchnie niż jeden rdzeń K10 i ma max 1.5x większą wydajność liczoną sumarycznie. Troche lepiej wypada FPU bo 4 nowe nie odstają tak bardzo od 6 wykonanych po staremu. Czyli najobólniej - cała ta wieloletnia praca bez sensu i nie chodzi tylko o marnotrastwo przy wykonaniu.
Podsumowujac ten mega fail po nowych informacjach wprost od inżyniera:
architektura - ogólnie fail
wdrożenie architektury na krzem - tatalny fail
wykonanie - sukces!
Uważam że GlobalFoudries mimo psioczenia na firme, na taktowania uzysk itp. wykonało kawał dobrej roboty, w porównaniu do konkurencji TSMC maja SOI i HKMG czego tajwańska firma nie ma, w porównaniu do Intela upakowali prawie 50% więcej tranzystorów na podobnej powierzchni - LLano Intela nie miało by 1,45@227mm2 skoro ich Sandy Bridge ma 1mld@216mm2 - gęstości to odpowiednio 6,38mln tranzystora/mm2 a intel 4,62 czyli GlobalFoudries o 38% lepiej gospodaruje krzemem.
Myśle że marketing Globala powinien to wyraźnie podkreślać i nie dać się wciągnąć jako chłopiec do bicia w tą gre AMD.
Oczywiście mają pewien problem bo puki co AMD jest chyba największym odbiorcą
Sam pojedynczy Rdzeń Llano składa się z 35 mln tranzystorów a pojedynczy Rdzeń jądra Deneb z 32-3 mln tranzystorów.
-
AMD Now 'Verging On Irrelevancy,' Analyst Says
Oni nic nie testowali w win8 a pozmieniali to
wyniki w ogóle szokujące
Myślałem że z krzesła spadne jak zobaczyłem jaka oszałamiająca jest różnica w Windows 8.
Nie bardzo wierze że wiele dadza łatki czy nowy system.
Trzeba czekać na FX B3.
-
W PR AMD doskonale wiedzą co sprzedają a to że cztery Moduły BD nazwali 8Core to marketing w krystalicznej postaci.
Co do IPC to JF-AMD pisał o wzroście ale że pjedynczy wątek jest nawet mniej wydajny od K10 to wszyscy się teraz skarżą że IPC spadło tylko że mówiąc o IPC w odniesieniu do architektury BD chodzi o Moduł więc IPC wzrosło.
JF-AMD nie może pisać że IPC Modułu wzrosło bo moduł AMD promują jako Dual-Core więc było by to sprzeczne z reklamą "8 Core!" a JF-AMD jest przeceż od marketingu.
-
Mam tak samo ale w nowych grach BD ma być szybszy od i7 czy i5 tak ? Testy na B3 to potwierdzają ?
Najważniejsza dla mnie jest wydajność w ST a tu jest gorzej zegar w zegar od K10 a w MT dość często jest poza zasięgiem SB.
O grach to nawet nie wspominając bo przy stosunkowo niskich roździelczościach widać że zapas mocy obliczeniowej jest dużo mniejszy niż SB 2600K a nawet 2500K.
Co do przyszłości może będzie lepiej może nie ale już teraz jest bardzo słabo w większości tytułów.
-
Jeśli potraktujemy fx-a jako quada to wraca absurdalna wręcz liczba tranzystorów...
Poza tym amd chyba wie co sprzedaje bo traktuje go jako 8 rdzeniowca...
To ile tranzystorów ma CPU nie jest wyznacznikiem ilości Rdzeni.
AMD stworzyło wielkiego kloca który niestety w przeważającej liczbie softu jest mniej wydajny od czterech Rdzeni SB.
Nie zapominaj że to nie inżynierowie nazywają tego proca
8Core a właśnie PR (marketing) AMD.


FAQ: AMD FX nowa architektura procesorów AMD (Bulldozer, Piledriver, Steamroller, Excavator)
w AMD
Napisano · Edytowane przez AMDK11
Zauważ że FPU w Module już się podwoiło(2x 128b) względem K10 tyle że są to jednostki wykonawcze podpięte pod wspólny scheduler. Nic nie stoi na przeszkodzie by rozbudować FPU tak by potrafiło operować na instrukcjach SSE/AVX 2x128b, 2x256b lub 1x512b a że obecnie wydajność w 128b pozostawia do życzenia to już kwestia wykonania.
Co do CMT, AMD lata temu deklarowało że nie pójdzie drogą Intela i nigdy nie zaimplementuje HT w CPU w takiej formie a opracowuje konkurencyjną architekturę tj CMT(Cluster MultiThreading) a że marketingowcy nazwali Rdzeń x86 CMT, dwoma rdzeniami to już inna bajka bo dokumentacja i patenty mówią coś innego.
Co do poboru energi to uważam że jednak nieużywane elementy architektury np jednostki wykonawcze(przez co muszą być wyższe zegary) ciągną prąd.
Podobno Moduł Steamroller ma być wydajniejszy w pojedynczym wątku Integer względem Piledrivera o ~30% i to przy tej samej ilości ALU, AGU.
Ale jak to bywa czas pokaże co z tego wyjdzie.
Jeżeli chodzi o wydajność na watt nic to nie mówi jaki będzie przyrost IPC.
Nie bez powodu dodają 2x więcej dekoderów a dekodery są bardzo dużym problemem(skomplikowanie i pobór energii) i nie jest tak łatwo dorzucic od tak sobie 2x więcej szczególnie że cały Frontend musi zostać poważnie rozbudowany.
AMD w FPU ma co poprawić by zwiększyć wydajność tej części CPU.
Natomiast co do ilości jednostek wykonawczych w pojedynczym klastrze integer Moduł BD ma 2ALU 2AGU i teoretycznie te cztery jednostki wykonawcze powinny przetwarzać 4 mikro-operacje na takt zegarowy a w praktyce przetwarzają 2.
Pojedynczy wątek(integer) w BD osiąga do 2 IPC przy 2 dekoderach x86 podczas gdy spokojnie powinno być ponad 3 IPC.
Dla porównania blok integer(3ALU/AGU) w Rdzeniu K10 potrafi maksymalnie przetworzyć teoretycznie 3 mikro-operacje a zmierzone IPC jest na poziomie ~2.5 przy 3 dekoderach x86.
Implementując w Modułe 8 Dekoderów x86 na pojedynczy klaster Integer(2ALU 2AGU) przypadną 4 dekodery x86 pozwalając na osiągnięcie teoretycznie do 4 mikro-operacji a co za tym idzie realną szanse na osiągnięcie ponad 3 IPC a teoretycznie do 4 IPC.
Stosunek Ilości jednostek wykonawczych Integer(ALU AGU) na pojedyczy wątek w Module BD/PD/SR jest 4 do 3 w Rdzeniu K10 tak jak i ilość dekoderów x86 na pojedynczy wątek Modułu SR 4 do 3 w Rdzeniu K10 i 2 w Module BD/PD.
W wielowątkowości w Module SR 8 Dekoderów x86 pozwnli w praktyce puścić 8 mikro-operacji na dwa klastry integer(4ALU 4AGU) pozwalając realnie osiągnąć 6-7 IPC a teoretycznie do 8.
Dla porównania Rdzeń SB/IB HT dysponuje 3ALU 2AGU i 4 Dekoderami x86 osiągając ~5 IPC.