Skocz do zawartości
Zamknięcie Forum PC LAB

Szanowny Użytkowniku,

Informujemy, że za 30 dni tj. 30 listopada 2024 r. serwis internetowy Forum PC LAB zostanie zamknięty.

Administrator Serwisu Forum PC LAB - Ringier Axel Springer Polska sp. z o.o. z siedzibą w Warszawie: wypowiada całość usług Serwisu Forum PC LAB z zachowaniem miesięcznego okresu wypowiedzenia.

Administrator Serwisu Forum PC LAB informuje, że:

  1. Z dniem 29 listopada 2024 r. zakończy się świadczenie wszystkich usług Serwisu Forum PC LAB. Ważną przyczyną uzasadniającą wypowiedzenie jest zamknięcie Serwisu Forum PC LAB
  2. Dotychczas zamowione przez Użytkownika usługi Serwisu Forum PC LAB będą świadczone w okresie wypowiedzenia tj. do dnia 29 listopada 2024 r.
  3. Po ogłoszeniu zamknięcia Serwisu Forum od dnia 30 października 2024 r. zakładanie nowych kont w serwisie Forum PC LAB nie będzie możliwe
  4. Wraz z zamknięciem Serwisu Forum PC LAB, tj. dnia 29 listopada 2024 r. nie będzie już dostępny katalog treści Forum PC LAB. Do tego czasu Użytkownicy Forum PC LAB mają dostęp do swoich treści w zakładce "Profil", gdzie mają możliwość ich skopiowania lub archiwizowania w formie screenshotów.
  5. Administrator danych osobowych Użytkowników - Ringier Axel Springer Polska sp. z o.o. z siedzibą w Warszawie zapewnia realizację praw podmiotów danych osobowych przez cały okres świadczenia usług Serwisu Forum PC LAB. Szczegółowe informacje znajdziesz w Polityce Prywatności

Administrator informuje, iż wraz z zamknięciem Serwisu Forum PC LAB, dane osobowe Użytkowników Serwisu Forum PC LAB zostaną trwale usunięte ze względu na brak podstawy ich dalszego przetwarzania. Proces trwałego usuwania danych z kopii zapasowych może przekroczyć termin zamknięcia Forum PC LAB o kilka miesięcy. Wyjątek może stanowić przetwarzanie danych użytkownika do czasu zakończenia toczących się postepowań.

AMDK11

Forumowicze
  • Liczba zawartości

    1184
  • Rejestracja

  • Ostatnia wizyta

Odpowiedzi dodane przez AMDK11


  1. CMT i SMT oszczedzanie na mnozeniu zasobow, rozwijanie x86 to wprowadzanie rozszerzen do obliczen rownoleglych, AMD nie chce budowac rdzeni w oparciu o odrebne FPU tylko wspoldzielic i maksymalizowac efektywnosc energetyczna. 4 FPU BD zuzywaja tyle energii co 6-8 SB od Intela, w efekcie sa w nieciekawej sytuacji na przyszlosc.

     

    Zauważ że FPU w Module już się podwoiło(2x 128b) względem K10 tyle że są to jednostki wykonawcze podpięte pod wspólny scheduler. Nic nie stoi na przeszkodzie by rozbudować FPU tak by potrafiło operować na instrukcjach SSE/AVX 2x128b, 2x256b lub 1x512b a że obecnie wydajność w 128b pozostawia do życzenia to już kwestia wykonania.

     

    Co do CMT, AMD lata temu deklarowało że nie pójdzie drogą Intela i nigdy nie zaimplementuje HT w CPU w takiej formie a opracowuje konkurencyjną architekturę tj CMT(Cluster MultiThreading) a że marketingowcy nazwali Rdzeń x86 CMT, dwoma rdzeniami to już inna bajka bo dokumentacja i patenty mówią coś innego.

     

    Co do poboru energi to uważam że jednak nieużywane elementy architektury np jednostki wykonawcze(przez co muszą być wyższe zegary) ciągną prąd.

     

    Podobno Moduł Steamroller ma być wydajniejszy w pojedynczym wątku Integer względem Piledrivera o ~30% i to przy tej samej ilości ALU, AGU.

     

    Ale jak to bywa czas pokaże co z tego wyjdzie.

     

    Efektywnosc wyliczona benchmarkow typu spec_power SB-EPvInterlagos ~4.5-5.0<>2.5-2.8 roznica w ilosci FPU 1:2

    http://www.spec.org/power_ssj2008/results/res2012q2/

     

     

    FPU typu AVX w przyszlym roku AVX2/FMA3 bedzie rozwijane w taki sposob jak do tej pory AMD i Intel wykorzystuja tutaj SMT.

    O SR wydajnosci na watt cytat byl i to w wolnym tlumaczeniu do 15% wyzsza od PD.

     

    Jeżeli chodzi o wydajność na watt nic to nie mówi jaki będzie przyrost IPC.

    Nie bez powodu dodają 2x więcej dekoderów a dekodery są bardzo dużym problemem(skomplikowanie i pobór energii) i nie jest tak łatwo dorzucic od tak sobie 2x więcej szczególnie że cały Frontend musi zostać poważnie rozbudowany.

     

     

     

     

     

     

    FPU typu AVX w przyszlym roku AVX2/FMA3 bedzie rozwijane w taki sposob jak do tej pory AMD i Intel wykorzystuja tutaj SMT.

    O SR wydajnosci na watt cytat byl i to w wolnym tlumaczeniu do 15% wyzsza od PD.

     

     

    Jezeli chodzi o wydajnosc to same dekodery sluza jednostkom wykonawczym, poki co AMD nie zmienia ich ilosci na watek(ciagle mniej na rdzen niz w starych architekturach).

     

    AMD w FPU ma co poprawić by zwiększyć wydajność tej części CPU.

     

    Natomiast co do ilości jednostek wykonawczych w pojedynczym klastrze integer Moduł BD ma 2ALU 2AGU i teoretycznie te cztery jednostki wykonawcze powinny przetwarzać 4 mikro-operacje na takt zegarowy a w praktyce przetwarzają 2.

    Pojedynczy wątek(integer) w BD osiąga do 2 IPC przy 2 dekoderach x86 podczas gdy spokojnie powinno być ponad 3 IPC.

     

    Dla porównania blok integer(3ALU/AGU) w Rdzeniu K10 potrafi maksymalnie przetworzyć teoretycznie 3 mikro-operacje a zmierzone IPC jest na poziomie ~2.5 przy 3 dekoderach x86.

     

    Implementując w Modułe 8 Dekoderów x86 na pojedynczy klaster Integer(2ALU 2AGU) przypadną 4 dekodery x86 pozwalając na osiągnięcie teoretycznie do 4 mikro-operacji a co za tym idzie realną szanse na osiągnięcie ponad 3 IPC a teoretycznie do 4 IPC.

     

    Stosunek Ilości jednostek wykonawczych Integer(ALU AGU) na pojedyczy wątek w Module BD/PD/SR jest 4 do 3 w Rdzeniu K10 tak jak i ilość dekoderów x86 na pojedynczy wątek Modułu SR 4 do 3 w Rdzeniu K10 i 2 w Module BD/PD.

     

    W wielowątkowości w Module SR 8 Dekoderów x86 pozwnli w praktyce puścić 8 mikro-operacji na dwa klastry integer(4ALU 4AGU) pozwalając realnie osiągnąć 6-7 IPC a teoretycznie do 8.

     

    Dla porównania Rdzeń SB/IB HT dysponuje 3ALU 2AGU i 4 Dekoderami x86 osiągając ~5 IPC.


  2. I to wlasnie idzie w tym kierunku, zeby te rdzenie byly pelnoprawne, skalowanie staloprzecinkowe jest dobre, bedzie lepsze a FPU dostanie optymalizacje pod nizsza energie miejsce i nie ograniczy to mocno potencjalu taktowania. Najwiekszy problem bedzie z wydajnoscia zmiennoprzecinkowa, ale AMD wyraznie tutaj niweluje role FPU FMAC na korzysc APU.

    4 drozne dekodowanie da 10% na watek czasem moze wiecej w grach chyba najmniej wazniejsza jest multiplikacja jednostek, rdzeni

    img0033832dzsak.gif

     

    No nie do końca tak jest poniewaz klastry Integer nie są autonomicznymi rdzeniami gdyż mają wspólny Frontend. AMD poprostu chce podnieść wydnajność pojedynczego wątku jak i efektywność w skalowaniu Modułu w wielowątkowości dodając dekodery x86 jak i rozbudowe pewnych elementów architektury które są wąskim gardłem.

    Więc nigdy do tego nie dojdzie by Moduł stał się Dual-Core ponieważ był by to powrót do klasycznej koncepcji Rdzenia x86.

    Założeniem Rdzenia x86 na architekturze CMT(1Moduł/2T) jest przetwarzanie dwóch wątków na pojedynczym rdzeniu x86 poprzez dwa klastry integer zamiast jednego szerokiego.


  3. Wiem tylko chciałem się upewnić czy aby nie jest to fatamorgana :-)

     

    Więc jednak tak jak

    przypuszczałem jednostek

    wykonawczych w jednym

    Module/2T Bulldozer/

    Piledriver jest cała masa (8

    jednostek arytmetyczno-

    logicznych(4ALU 4AGU) a

    na pojedynczy wątek

    przypadają 4(klaster Integer

    (2ALU 2AGU)).

    Teoretycznie każdy klaster

    Integer(dwa w Module)

    może przetworzyć 4 mikro-

    operacje ale w praktyce 4

    Dekodery x86 o

    teoretycznych

    możliwościach 8 mikro-

    operacji puszczają 4 mikro-

    operacje na dwa klastry

    integer czyli tylko dwie

    mikro-operacje na

    pojedynczy wątek 2ALU

    2AGU zamiast 4 mikro-operacji.

    W rezultacie Moduł BD

    osiąga max 4 IPC zamiast

    teoretycznie 8 IPC. Śmiem

    twierdzić że obecnie 4

    dekodry x86 w M BD są w

    rzeczywistości przypisane na

    stałe po dwa na klaster

    integer przez co głównie w

    pojedynczym wątku

    osiągane są max 2 IPC

    zamiast teoretycznie 4 IPC

    (marnotrawstwo jednostek

    wykonawczych).

    Zaimplementowanie 8

    dekoderów x86(Core SB/IB 4 dekodery x86) plus szereg innych

    poprawek mikroarchitektury w Module

    Steamroller (4 dekodery

    x86 w Module BD/PD)

    pozwoli zbliżyć się do

    teoretycznych 8 IPC dla 2T(Core SB/IB ~5 IPC) i

    4 IPC dla 1T(pojedynczy

    wątek) dzięki bardziej

    optymalnemu

    wykorzystaniu jednostek

    wykonawczych 4ALU 4AGU

    (8 jednostek

    stałoprzecinkowych/

    arytmetyczno-logicznych).

    Niech jeszcze dopracują

    FPU i będzie naprawdę ok :-)

     

    O ile w pojedynczym wątku Steamroller prawdopodobnie będzie mniej wydajny od SB/IB to w 2T ma szanse być znacznie wydajniejszy.


  4. całości nie będę komętowal bo nie ma sensu.

    FX nie będę bronił ,ale wy sobie nie zdajecie sprawy ze złożoności procesora .Płacz tam tam i tam.

    Popatrz przykładowo dodanie następnych dc wiąże się z bardzo wysokim zwiększeniem zapotrzebowania na energię czy zastąpienie na 6/2 core. Jest to skok 1/3 na samym dekoderze w poborze prądu.

     

    Oczywiście że zdaje sobie sprawe że to o czym piszemy to tylko uogolnienia bo mikroarchitektura CPU to coś niezwykle złożonego.

     

    Co do dekoderów w Module to przez większość czasu puszaczją 4 mikro-operacje na bloki wykonawcze w których jest 8 jednostek integer(4ALU, 4AGU) a jest jeszcze FPU więc dekodery też niedomagają ale zapewne jeszcze inne niedociągnięcia jak i braki mają wpływ na niską wydajność.


  5. W teorii FX-8150 moze wykonac 16 instrukcji na zegar a Phenom 1100T 15 ? Zakladajac, ze bedzie maksymalnie obciazony.

     

    Mniej więcej tak.

     

    Swoją drogą uważam że Bulldozer miał mieć znacznie wyższe IPC i pewno z taką myślą była ta architektóra projektowana ale że gdzieś po drodze nastąpiły cięcia kosztów?Zwolnienia ważnych inżynierów?... więc pozostałością po pierwszym projekcie jest wiele niewykorzystywanych jedostek wykonawczych jak i innych elementów architektury które także nie działają a ciągną papu albo są niedopracowane.


  6. FPU w buldim fizycznie jest 4 nie 8.To przetważanie 2 wątków FP nie wychodzi mu źle skoro jest sporo szybsze od phenoma x4 i niewiele wolniejsze zegar w zegar od x6.

    Mówimy przecież cały czas o fizycznie 4 jednostkach. Nie mają one wydajności intela. Najwięcej jednak buldi stracił przy wydajności int.

    Mimo fizycznie 8 "rdzeni" przez skopany frontend, stosunkowa mała pamięć l1-16kb dla danych, oraz również nie wielką bo dzieloną na 2 "rdzenie"

    l1 - 64kb dla instrukcji.

    Buldi wygląda jak wiejska bryka z 8 konimi ze zwalona uprzężą do której nie można ich wszystkich na raz podpiąć.

    Co do wydajności w tzw. aplikacjach rozrywkowych mam dziwne uczucie.

    Przy testach normalnych aplikacji które obciążą mi na 100% przewaga intela nie jest już kosmiczna i jest ok.

    Mogę w tedy powiedzieć że procesor x jest wolniejszy od y przy pełnym jego wykożystaniu o n-ą wartość.

    Niestety gdy widzę np. wiedźmina gdy większość procka leży odłogiem męcząc 1 lub 2 wątki nie powiem przecież

    że procesor jest "wolny".

    Skoro pracuje tylko jego 1/4, reszta leży i wypoczywa, to samo skyrim. Ok. Klienta to nie obchodzi. Ale pozycje naprawdę wielowątkowe

    nie mają tragicznej wydajności.

     

    Moduł BD(Rdzeń CMT) w założeniach miał być odwpowiedzią na Rdzeń z HT więc można by powiedzieć że jeden szeroki blok integer został podzielony na dwa mniejsze a siłą rzeczy w tej koncepcji potencjalna wydajność jednowątkowa zeszła na dalszy plan.

    W każdym z klastrów Integer znajdują się 2ALU i 2AGU więc w teorii w jednym takcie zegarowym mogą być równolegle obciążone 4 jednostki stałoprzecinkowe na wątek ale niestety tak nie jest.

    W wielowątkowości Moduł dysponuje dwoma takimi klastrami integer łącznie dysponując 4ALU i 4AGU więc w jednym takcie zegarowym teoretycznie można obciążyć równolegle aż 8 jednostek stałoprzecinkowych no ale tak nie jest.

    Co do bloku FPU to chodziło mi o możliwości w SSE/AVX czyli 2x 128bit a pojedyncza instrukcja 128b BD jest mnijej wydajna niż w K10 o SB niewspominając.

    Moduł BD

    ma 8 jednostek stałoprzecinkowych z tego do pojedynczego wątku 4.

     

    Rdzeń K10 ma 6(3ALU/AGU) jednostek stałoprzecinkowych tyle że tylko 3 mogą być równolegle obciążone na takt zegarowy.

     

    Rdzeń SB ma 5 jednostek stałoprzecinkowych(3ALU i 2AGU) zarówno dla pojedynczego jak i wielu wątków.

     

    Jak widać w pojedynczym wątku Moduł BD powinien być mniej wydajny ale w wielowątkowości za to spokojnie wydajniejszy od Rdzenia SB(patrząc na ilość jednostek wykonawczych w Module BD/Rdzeń SB) ale tak nie jest.

    Ciekawe że Moduł BD dostał tyle zasobów w postaci ALU, AGU, szeroki FPU a ma tylko o jeden dekoder więcej od K10(3 Dekodery x86) nie wspominając o tym samym L1I 64KB 2-way i małym L1D 2x 16KB 4-way.

     

     

    Moduł BD 4 IPC z tego na wątek przypada pewnie do 2 IPC

     

    Rdzeń K10 ~2.5 IPC

     

    Rdzeń SB ~5 IPC

     

    Przy zasobch w Module, BD powinen mieć spokojnie 6-7 IPC a ma marne 4 przez co musieli wyżyłować zegar.

     

    Dodam że Moduł ma 4 Dekodery x86 (8 mikro-operacji) natomiast Rdzeń K10 3 Dekodery x86(6 mikro-operacji) a Rdzeń SB 4 Dekodery x86(7 mikro-operacji).


  7. Faktem jest że wydajność FPU(jak i INT) BD w pojedynczym wątku jest niska przy wyższym taktowaniu.

    Moduł Bulldozer powinien przetwarzać ok 6-7 instrukcji na takt zegarowy a przetwarza max 4 podczas gdy Core SB ~5.

     

    Moduł muszą poprawić/rozbudować by wydajność była konkurencyjna nawet i w pojedynczym wątku bo widać że jednostki wykonawcze leżą odłogiem a co jest tego przyczyną to w tej chwili tylko ciekawostka/szczegół i dopuki w AMD się z tym nieuporają to będzie cienko.


  8. Czysto teoretycznie ten dekoder jest w stanie "wyrzucić" 8 mikro-instrukcji, co odpowiadałoby potrzebom jednostek ALU i AGU. Nie zapominajmy jednak, że w module jest także FPU... Dochodzi do tego dość słabe przewidywanie skoków oraz inne skopane rzeczy. Efekt, jaki jest, każdy widzi :E:lol2:.

     

    Teoretycznie tak ale w praktyce rzadko się zdarza by 4 dekodery x86 puściły więcej niż 4 mikro-instrukcje.

    Zresztą samo AMD w dokumentacji h15 BD dla programistów przyznaje że Moduł BD przetwarza max 4 instrukcje na takt zegarowy a dochodzi do tego FPU które także wydajnością niegrzeszy jakby przez większość czasu przetwarzana była 1 instrukcja 128bit podczas gdy fizycznie jest 2x128bit.

     

    Dodam że Rdzeń Sandy Bridge z HT przetwarza ok ~5 instrukcji na takt zegarowy.


  9. Wygląda to tak jakby przez wiekszość czasu obciążonych było połowe jednostek stałoprzecinkowych.

     

    Moduł BD sumarycznie dysponuje 4ALU i 4AGU czyli na wątek przypada 2ALU i 2AGU. Jeśli na każdy klaster Integer(2 w Module) przypisane są na stałe 2 Dekodery x86(4 na Moduł) to znaczy że przez wiekszość czasu kod przetwarzany jest na 4 jednostkach stałoprzecinkowych czyli 1ALU i 1AGU na wątek więc min. to by tłumaczyło niską wydajność.


  10. 1.08.2012

    "Firma AMD

    poinformowała, że jej

    szeregi ponownie zasilił Jim

    Keller - jeden z najlepszych

    inżynierów w branży CPU,

    wcześniej pracujący w AMD

    w latach 1998-2004. Z

    chwilą powrotu w AMD

    objął funkcję wiceprezesa

    oraz głównego architekta

    mikroprocesorów. Jim

    Keller to prawdziwy

    weteran i uznany specjalista

    w dziedzinie rozwoju

    procesorów - w latach 80 i

    90 pracował w firmie DEC,

    gdzie był jedną z

    ważniejszych osób

    odpowiedzialnych za

    rozwój układów z serii

    Alpha. W latach 1998-1999

    na krótko przeniósł się do

    AMD wnosząc spory wkład

    w pracę nad architekturą

    K7 (procesory Athlon).

    Następnie powrócił do

    AMD, gdzie był główną

    osobą kierującą pracami

    nad architekturą K8 i

    procesorami Athlon 64 i

    Athlon 64 X2. AMD opuścił

    w 2004 roku przenosząc się

    do PA Semiconductor, a

    ostatnio pracował w Apple

    nad układami A4 i A5."


  11. Moduł Bulldozer(Rdzeń x86 w architekturze CMT(Cluster Multi-

    threading))

    Blok Front-end z 4-ma Dekoderami x86(4 złożone)

    Podwójny blok Integer(CMT) z 4ALU i 4AGLU(dwa klastry Integer(marketingowe rdzenie) po 2ALU i 2AGLU na pojedynczy wątek)

    Blok FPU 2x128bit

    FMAC(2x128bit

    SSE, AVX lub 1x256bit AVX) + FMA4 i XOP

     

    Dla porównania:

     

    Rdzeń x86 K10

    Blok Front-end z 3-ma

    Dekoderami x86(3

    złożone)

    Blok Integer składający

    się z 3ALU/3AGU(z tego tylko trzy jednocześnie) na pojedynczy wątek

    Blok FPU 1x128bit SSE

     

    Rdzeń x86 Sandy Bridge

    z technologią HT(Hyper-Threading(SMT(Simultaneous

    Multi-threading))

    Blok Front-end z 4-ma Dekoderami x86(1 bardziej złożony i 3

    proste)

    Blok Integer składający się z 3ALU i 2AGU na pojedynczy wątek jak i dwa wątki(HT(SMT))

    Blok FPU 1x128bit SSE, AVX lub 1x256bit AVX

     

    Widać po testach jak bardzo architektura Bulldozer jest niedopracowana.

    Jeżeli chodzi o te rzekome testy Trinity w GeekBench to wątpię by były prawdziwe bo to oznaczałoby że w pojedynczym wątku Moduł PD jest wydajniejszy zegar w zegar od Rdzenia K10 a w to jakoś mi się nie chce wierzyć.


  12. Jakieś źródło?

    Brakuje jeszcze tylko liczby dla buldozera.

    Wystarczy przejżeć recenzje Llano.

    W pojedynczym Rdzeniu Llano ilość tranzystorów zwiększyła się do 35 mln z 32-3 mln Deneba.

    Te dane są znane już od bardzo dawna.

    Powtótrze: Rdzęń K10 składa się z 32-3 mln tranzystorów a w Llano doszły pewne usprawnienia i elementy które zwiększyły złożoność Rdzenia do 35 mln tranzystorów.

     

    Moduł BD niech ma ok ~80 mln tranzystorów a to ponad 2x więcej niż Rdzeń Llano(35mln) więc wychodzi że architektura Bulldozer jest mocno niedopracowana(wydajność).


  13. Dzięki za linka, ta wypowiedź potwierdza prawdziwość pobieżnych obserwacji ze ten procesor jest jakiś dziwny (foto struktury krzemowej, umieszczenia bloków, rozmiaru etc.) ale to nie wszystko..

     

    Nie lubie jednak tak pokrętnych porównań "module with 2MB unified L2 cache contains 213 million transistors and is 30.9mm2 large. By contrast, die size of one processing engine of Llano processor (11-layer 32nm SOI, K10.5+ micro-architecture) is 9.69mm2 (without L2 cache)" bo nic nie obrazuje!

     

    Mi wyszło szacunkowo 2MB L2 117mln(zdaje sie że ktoś wklajał o ile pamietam 124mln..wiec podobnie) http://pclab.pl/kom61234.html=511046 czyli średnio 7 tranzystora na komórke z uwzglednieniem logiki sterujacej.

    Nie znam ilości tranzystorów jaka zajmuje rdzeń Phenoma ale jeśli LLano ma 1,45mld na 227mm2 to daje 6,3mln/mm2 tranzystorów czyli rdzeń LLano(deneba,thubana) to ok 62mln tranzystorów.

     

    Buldozer 1 moduł => 213mln-124mln cache(lub 117)= 89mln tranzystorów w samym module (przy korzystnej wersji) vs 62mln tranzystorów jednego rdzenia phenoma. Powedzmy że sumaryczne IPC(bez uwzglednienia przewagi taktowań) 2 rdzeniowego modułu Buldozera z recenzji to 1,33 rdzenia Phenoma(to benchmarkowo potwierdza matematyczne wyliczenia np. pawłapclab w komentach)

    to analizujac sensowność zmian..wychodzi ona na ZERO! bo moduł zajmuje 1,5x większą powierzchnie niż jeden rdzeń K10 i ma max 1.5x większą wydajność liczoną sumarycznie. Troche lepiej wypada FPU bo 4 nowe nie odstają tak bardzo od 6 wykonanych po staremu. Czyli najobólniej - cała ta wieloletnia praca bez sensu i nie chodzi tylko o marnotrastwo przy wykonaniu.

     

    Podsumowujac ten mega fail po nowych informacjach wprost od inżyniera:

    architektura - ogólnie fail

    wdrożenie architektury na krzem - tatalny fail

    wykonanie - sukces!

     

    Uważam że GlobalFoudries mimo psioczenia na firme, na taktowania uzysk itp. wykonało kawał dobrej roboty, w porównaniu do konkurencji TSMC maja SOI i HKMG czego tajwańska firma nie ma, w porównaniu do Intela upakowali prawie 50% więcej tranzystorów na podobnej powierzchni - LLano Intela nie miało by 1,45@227mm2 skoro ich Sandy Bridge ma 1mld@216mm2 - gęstości to odpowiednio 6,38mln tranzystora/mm2 a intel 4,62 czyli GlobalFoudries o 38% lepiej gospodaruje krzemem.

     

    Myśle że marketing Globala powinien to wyraźnie podkreślać i nie dać się wciągnąć jako chłopiec do bicia w tą gre AMD.

    Oczywiście mają pewien problem bo puki co AMD jest chyba największym odbiorcą

    Sam pojedynczy Rdzeń Llano składa się z 35 mln tranzystorów a pojedynczy Rdzeń jądra Deneb z 32-3 mln tranzystorów.


  14. W PR AMD doskonale wiedzą co sprzedają a to że cztery Moduły BD nazwali 8Core to marketing w krystalicznej postaci.

    Co do IPC to JF-AMD pisał o wzroście ale że pjedynczy wątek jest nawet mniej wydajny od K10 to wszyscy się teraz skarżą że IPC spadło tylko że mówiąc o IPC w odniesieniu do architektury BD chodzi o Moduł więc IPC wzrosło.

    JF-AMD nie może pisać że IPC Modułu wzrosło bo moduł AMD promują jako Dual-Core więc było by to sprzeczne z reklamą "8 Core!" a JF-AMD jest przeceż od marketingu.


  15. Mam tak samo ale w nowych grach BD ma być szybszy od i7 czy i5 tak ? Testy na B3 to potwierdzają ?

    Najważniejsza dla mnie jest wydajność w ST a tu jest gorzej zegar w zegar od K10 a w MT dość często jest poza zasięgiem SB.

    O grach to nawet nie wspominając bo przy stosunkowo niskich roździelczościach widać że zapas mocy obliczeniowej jest dużo mniejszy niż SB 2600K a nawet 2500K.

     

    Co do przyszłości może będzie lepiej może nie ale już teraz jest bardzo słabo w większości tytułów.


  16. Jeśli potraktujemy fx-a jako quada to wraca absurdalna wręcz liczba tranzystorów...

     

     

    Poza tym amd chyba wie co sprzedaje bo traktuje go jako 8 rdzeniowca...

    To ile tranzystorów ma CPU nie jest wyznacznikiem ilości Rdzeni.

    AMD stworzyło wielkiego kloca który niestety w przeważającej liczbie softu jest mniej wydajny od czterech Rdzeni SB.

    Nie zapominaj że to nie inżynierowie nazywają tego proca

    8Core a właśnie PR (marketing) AMD.

×
×
  • Dodaj nową pozycję...