Skocz do zawartości

AMDK11

Forumowicze
  • Liczba zawartości

    531
  • Rejestracja

  • Ostatnia wizyta

Odpowiedzi dodane przez AMDK11


  1. W odniesieniu do Llano wychodzi że FX-8000 4Moduły/8T, Cache 16MB, 32nm SOI+HKMG ma 2 mld tranzystorów na powierzchni 315 mm2.

    Z kolei Opteron(Interlagos) 8Modułów/16T, Cache 32MB, 32nm SOI+HKMG miałby 4 mld tranzystorów na 630 mm2.

     

    AMD Llano 4C+GPU 32nm SOI+HKMG - 1.45 mld tranzystorów na 228 mm2

     

    Intel Core i7 980X 6C/12T 32nm HKMG - 1.17 mld tranzystorów na 248 mm2

     

    Widać że jednak proces technologiczny GF 32nm SOI+HKMG ma znacznie większą gęstość upakowania tranzystorów na na tej samej powierzchni co Intela 32nm HKMG.


  2. @AMD K11 - nie można na podstawie upakowania tranzystorów w jednym procesorze spekulować na temat upakowania tranzystorów w zupełnie innym procesorze o zupełnie innej architekturze wyprodukowanym w zupełnie innym procesie. Może jeszcze zaczniesz wnioskować na temat liczby tranzystorów lub wielkości układu Orochi na podstawie danych dla AMD Cayman?

    Obydwa układy są w 32nm tyle że Intelowski to 32nm HKMG a ten od GF 32nm SOI+HKMG i jeżeli powtarzam JEŻELI gęstość upakowania tranzystorów jest na tym samym poziomie to i można na tej podstawie wyliczyć jakiej mniej więcej ilości tranzystorów można się spodziewać. Co innego jeśli proces technologiczny od GF 32nm SOI+HKMG ma większą gęstość upakowania tranzystorów wówczas można się spodziewać większej ilości tranzystorów niż z moich wyliczeń.

    Co do architektury to nie miałem na celu porównywanie Bulldozera do Itanium a zestawienie ich jako ciekawostkę.

    Natomiast co do Caymana to nie trafiłeś ponieważ GPU Cayman jest wytwarzany w 40nm a Orochi 32nm :)


  3. Intel Itanium(Poulson) 8Core/16T, Cache 32MB, 32nm, 3.1 mld tranzystorów na powierzchni 544 mm2.

     

    AMD Opteron(Interlagos) 8Modułów/16T, Cache 32MB, 32nm i jeśli przyjąć że gęstość upakowania tranzystorów jest zbliżona do procesu technologicznego Intela 32nm to wychodzi mniej więcej 3.6 mld tranzystorów na powierzchni 630 mm2.

     

    AMD FX-8000(Zambezi) 4Moduły/8T, Cache 16MB, 32nm, 1.8 mld tranzystorów na powierzchni 315 mm2.

     

    Gdzieś mi się obiło o uszy czy może raczej o oczy że gęstość upakowania tranzystorów GF 32nm SOI+HKMG jest 20% większa względem Intelowskiego 32nm HKMG ale niestety nie wiem czy to prawda.

     

    PS. Ot taka ciekawostka ode mnie ;)


  4. Powiem tak a raczej napiszę że moim zdaniem dziwne będzie jeśli pojedynczy wątek Modułu Bulldozer nie będzie szybszy od K10.

     

    Core K10

    Blok Integer w K10 dysponuje 3ALU/AGU co znaczy że każda z ALU/AGU w cyklu zegarowym może być użyta tylko jedena jednostka ALU lub AGU na przemian ale nigdy jednocześnie co w efekcie daje tyle że niby jest w sumie 6 jednostek Int. ale tylko 3 te jednostki mogą być obciążone w tym samym czasie.

     

    Moduł Bulldozer

    Pojedynczy Klaster Integer BD dysponuje za to 2ALU i 2AGLU.

    AGLU to połączenie dwóch jednostek obliczeniowych tj. AGU + okrojone ALU. Na AGLU jednocześnie może być liczony na przemian ALU(okrojony) lub AGU ale nie jednocześnie co znaczy że na jeden wątek przypada teoretycznie 6 jednostek Integer z czego 4 mogą być obciążone jednocześnie.

     

    Wiem powtarzam się ale przypomnę że pomimo iż Rdzeń SB dysponuje 3ALU i 2AGU pojedynczy wątek przeważnie nie jest w stanie optymalnie obciążyć tych jednostek dla tego obciążenie ich drugim wątkiem(HT) daje jakiś 20-30% wzrost wydajności więc po co AMD miało by dokładać tych jednostek do każdego z obu klastrów skoro w pojedynczym wątku przez większość czasu leżały by odłogiem a dla drugiego wątku jest drugi Klaster Int?

    Przeanalizujcie różne kombinacje wykorzystania jednostek Int. w Module BD vs. K10 i co wyjdzie?

    Mnie wychodzi że powinno być tylko lepiej a nawet coś ok 25% wzrost wydajności w pojedynczym wątku.

     

    Co do FPU to też powinno być tylko lepiej ponieważ blok FPU Rdzenia K10 to 1x 128bit SSE natomiast blok FPU Modułu BD to 2x 128bit SSE, AVX lub 1x 256bit AVX.

     

    PS. Jeśli dobrze pójdzie premiera w przyszłym miesiącu a więc już niedługo przekonamy się czy parametry architektury Modułu BD przełożą się na rzeczywistość.


  5. Kompletnie bez sensu. Nie ma znaczenia wydajność "rdzenia". Gdyby liczyła się tylko wydajność rdzenia, to dzisiaj wszyscy siedzielibyśmy na komputerach z procesorami Alpha, a architektura x86 była by na wyginięciu (albo już by wyginęła :) ). Liczy się stosunek wydajności do ceny.

    Masz racje ale zauważ że to dla potencjalnego nbywcy liczy się stosunek wydajności do ceny. Ja miałem na myśli aspekt architury rdzeni x86. Nieporównuje się tylko części rdzenia x86(Moduł BD) do kompletnego rdzenia x86 czy całego rdzenia x86(Moduł BD) do innych kompletnych 2 rdzeni x86.

    Wydajność rdzenia ma znaczenie ponieważ przekłada się to na ogulną wydajność wielordzeniowego układu.

    PS. Głównie to chodziło mi o to że niekturzy oczekują że 2 Moduły muszą przebić 4 rdzenie SB a to tak jakby oczekiwać że 2 rdzenie SB będą szybsze od 4 rdzeni Nehalem/Core 2.

    Jak już coś to 2 Moduły będa wydajniejsze od 2 Rdzeni SB ale na pewno nie 4.


  6. Phenom II X4 nie jest odpowiednikiem 4 rdzeni SB pod żadnym względem oprócz tego, że mają 4 rdzenie x86. Dalej nie zauważyłeś, że wytknąłem Ci jedno poważne przekłamanie - napisałeś, że 2 moduły BD to odpowiednik Phenoma II X2. Niby w czym te 2 procesory będą podobne? Że mają 2 pamięci L2 i 2 (zupełnie różne) dekodery x86? Pod względem wydajności 2 moduły BD mają być nieco powyżej 4 rdzeni K10.

    edycja: Nie chcę się już wdawać w dyskusje, czy Orochi ma 4 rdzenie (jak sugerują patenty AMD i zdrowy rozsądek), czy 8 rdzeni (jak mówi marketing AMD), bo to nie ma żadnego sensu. Jedyne co się liczy, to wydajność i cena.

     

    Moduł BD/Core SB/Core K10 to rdzenie x86 i porownywanie ich ze soba jest jak najbardziej uzasadnione. Miślisz że porownywanie Modułu BD do Rdzenia K10 jest niesprawiedliwe?

    Czy Rdzeń K7 Athlon nie był odpowiednikiem Rdzenia Pentium III/4? Pewnie że był a to że architektury się różniły i niebyło wielordzeniowców wiele nie zmienia bo każdy z nich był rdzeniem x86.

    Moduł BD będzie się porównywało do Rdzenia K10 by sprawdzić rożnice w wydajności architektur a nie np 2 Rdzenie K10 vs Moduł BD/Rdzeń SB.


  7. Odpowiednik dwóch bardzo różniących się od siebie wydajnością chipów? Nie chce mi się liczyć wydajności w stosunku do SB, ale gdyby miało być tak, jak piszesz, to 2 moduły BD musiały by być 4x mniej wydajne od 4 modułów BD. ;)

    Oczywiście nie miałem na myśli że są odpowiednikami cenowymi bo to już będzie zależało od wydajności.

    Phenom II X4 to odpowiednik 4 rdzeni Sandy Bridge choć architektury i wydajność między tymi układami bardzo się różnią a że Phenom jest dużo wolniejszy to i cena musi być znacznie niższa. Nie ma co ukrywać że architektura K10 jest przestarzała i już dawno temu powinna przejść na zasłużoną emeryturę gdyż korzenie tej architektury sięgają aż do 2003 roku(K8 Athlon 64). Rdzeń K10 Phenoma II to podrasowany rdzeń K8 Athlona 64 i dalsze ulepszanie tej architektury dały by znikomy efekt.

    Cena FXów będzie zależeć głównie od wydajności.

    Przypomne że Moduł(Rdzeń) BD to odpowiednik Rdzenia SB/K10.


  8. Wyniki FX w 3DMark Ventage rzeczywiście są dziwne przynajmniej te cząstkowe dla CPU. Jeżeli chodzi o wynik ogólny CPU to można by to jeszcze tym wytłumaczyć że te testy były liczone zapewne na jednostkach zmiennoprzecinkowych(FPU) a jak wiadomo 4 Moduły to 8x 128b SSE natomiast 4 rdzenie SB to 4x 128b SSE.

    Test GPU to pewnie na różnych kartach graficznych był przeprowadzony bo różnica dzięki samym CPU to raczej odpada i zapewne cały ten test w Ventage to może być FAKE.

    Co do reszty testów to wyniki w nich są dziwnie niskie względem K10.

    PS. Puki co zostają nam domysły bo nie wiadomo który test był prawdziwy lub przynajmniej bliski prawdy.


  9. To nawet nie to. CPU łączy się z mostkami za pomocą szyny systemowej, w tym wypadku HT. Dlatego też możliwe jest stosowanie nawet starych chipsetów jak NForce4 i jego pochodne albo i nForce3 do płyt AM2+ / AM3.

    Czy dany procesor jest obsługiwany przez daną płytę zależy* od producenta płyty, który daje wsparcie w postaci biosu.

     

     

    * oczywiście procka AM2/AM2+ nie uruchomimy na płycie AM3, bo cpu nie obsługuje pamięci DDR3.

    No toż to o to mi chodziło i to miałem na myśli a co do biosów to już inna bajka.

    Wiadomo że jak Bulldozer ma tylko kontroler DDR3 to nie ma szans by był zgodny z AM2/AM2+(DDR2) co nie zmienia faktu że sama architektura Rdzeni/Modułów nie ma nic do zgodności z Chipsetami.


  10. Nie znam się na tym ale zastanawia mnie jak to możliwe że przy takich zmianach w architekturze stare chipsety typu 7xx i 8xx nadal obsłużą Buldki :hmm:

    To proste ponieważ sama architektura CPU nie ma nic do Socketu jeżeli HT3.1 jest zgodne z HT3.0 i kontroler pamięci RAM to wciąż DDR3 Dual-Chanel to i gniazdo będzie fizycznie zgodne. Gniazdo to tylko szyna komunikacyjna(HT), połączenia z modułami pamięci(RAM) jak i zasilanie. Jeżeli wprowadzi się nowe magistrale(np HT4/DMI?), Ram(np DDR4)czy większą liczbe kanałów, zintegrowany kontroler PCI-Express, zasilanie to i nowe gniazdo będzie wymagane.


  11. Co prawda to prawda, ale ja wciąż liczę, że te Buldki pokażą naprawdę coś dobrego ;). Na papierze wygląda to nieźle, jednak najbardziej obawiałbym się kulejącego Frontendu, jak na taką ilość ALU/AGU.

    Frontend to nie tylko Dekodery i Cache L1I ale min także układ pobierania oraz przewidywania skoków i rozgałęzień.

    Gdyby patrzeć na to że K10 ma 3 Dekodery x86 przy założeniu że były wąskim gardłem architektury dołożenie do BD tylko czwartego dekodera było by dziwne ale skąd mamy pewność że K10 optymalnie wykorzystywał dekodery? Może właśnie inne elementy Frontendu czy bloków wykonawczych(INT, FPU) K10 były ograniczeniem. Trzy dekodery w K10 to 3x 2uops a jest możliwe że realnie najczęściej było 3x 1uops a gdyby Frontend Bulldozera był tak zoptymalizowany by wykorzystać cały potencjał 4 Dekoderów x86 czyli 4x 2uops? Wówczas dawało by to 8uops podczas gdy w SB przez większość czasu leci 4uops. Tak samo może być z Cache L1I bo niby jest ten sam co w K10 czyli 64KB 2-Way ale może właśnie nie nie był dla K10 ani nie jest dla BD większym ograniczeniem. Pewno w kolejnych generacjach architektury Bulldozer Moduły otrzymają nowy Cache L1I np 4-Way.

    Oczywiście to tylko moje spekulacje ale czas pokaże czy się mylę.


  12. ale 40% wiecej przy 16 core vs 12, to nie jest jakas rewelacja :/

    Moduł Bulldozer jest odpowiednikiem rdzenia Sandy Bridge więc przyrost wydajności 40% dla Interlagos 8 Modułów vs 12 rdzeni K10 to dużo. Z tego wychodzi że Moduł BD jest wydajniejszy od rdzenia K10 znacznie ponad 110% natomiast dla pojedynczego wątku powinno być 20-30%. Oczywiście trzeba dodać że przyrost wydajności będzie zapewne różny dla różnych zastosowań i to że taka metoda szacowania wydajności nie musi pokrywać się z rzeczywistością. Każdy z klastrów INT w BD jest zoptymalizowany pod kątem pojedynczego wątku. Np rdzeń SB ma 3ALU i 2AGU a mimo to właśnie w pojedynczym wątku przez większość czasu część tych jednostek się nudzi ale za to SB ma SMT(HT) który obciąża niewykorzystane jednostki drugim wątkiem. AMD SMT ma tyko w bloku FPU gdzie dwa wątki mogą lecieć na jednym FPU który trzeba przyznać jest dość potężny(2x 128b SSE AVX lub 1x 256b AVX). W Module BD zamiast opracować jeden większy blok INT w którym jednostki wykonawcze w pojedynczym wątku i tak leżały by odłogiem i prawdopodobnie lekarstwem na to musiało by być również SMT AMD opracowało własne rozwiązanie o nazwie CMT(Cluster Multi Threading) czyli dwa mniejsze bloczki INT(Klastry INT) i każdy z tych klastrów ma optymalną ilość jednostek wykonawczych do pojedynczego wątku bez niepotrzebnego pakowania logiki a tym samym marnowania powierzchni czipu. AMD już dawniej deklarowało że będą rozwijać swoje autorskie rozwiązanie jakim jest CMT jako odpowiedź na HT(SMT) Intela.

    HT(SMT) Intela nie jest doskonałe ponieważ dwa wątki "walczą" o zasoby tj. 3ALU 2AGU i 32KB Cache L1D więc dlatego wydainość dzięki HT to średnio tylko około 20%. Natomiast w rdzeniu(Module) z architekturą CMT wątki mają do dyspozycji 2 Klastry INT(2ALU, 2AGLU i 16KB L1D) co sumarycznie daje 4ALU i 4AGLU dla Modułu.

    Dawniej uważano że pojedynczy wątek Modułu będzie słabszy od K10 gdyż myślano że Klaster INT dysponuje 2ALU i 2AGU ale jednak AGU w BD to jest AGLU(AGU połączone z uproszczonym ALU) a to zmienia całkiem postać rzeczy. Trzeci ALU w rdzeniu SB w pojedynczym wątku jest rzadko i w dodatku w małym stopniu obciążany więc w Klastrze INT BD trzeci ALUs zastąpiono dwoma prostszymi ALUsami połączonymi z AGU (AGLU).

    Podsumujmy:

     

    Core K10

    Frontend: (3 Dekodery x86(3x 2uops/1Mops), L1I 64KB 2-Way)

    Blok INT: (3ALU/AGU, L1D 64KB 2-Way)

    Blok FPU: (1x 128b SSE)

    Ilość tranzystorów: 33 mln(Llano K10.5 35 mln)

    Cache L2: 512KB 16-Way

     

    Core SB HT(SMT)

    Frontend: (4 Dekodery x86(1x 4uops, 3x 1uops), L1I 32KB 8-Way)

    Blok INT: (3ALU, 2AGU, L1D 32KB 8-Way)

    Blok FPU: (1x 128b SSE lub 1x 256b AVX)

    Ilość tranzystorów: 55 mln

    Cache L2: 256KB 8-Way

     

    Moduł BD(CMT)

    Frontend: (4 Dekodery x86(4x 2uops/1Mops), L1I 64KB 2-Way)

    Blok INT: 2x(2ALU, 2AGLU, L1D 16KB 4-Way)

    Blok FPU: (2x 128b SSE AVX lub 1x 256b AVX)

    Ilość tranzystorów: około 70 mln

    Cache L2: 2MB 16-Way

     

    Wydajność Modułu Bulldozer powinna być bardzo wysoka ale jak będzie na prawdę? Czy znacznie wzrośnie IPC? Czy pojedynczy wątek będzie znacznie szybszy od K10 i czy w Multi Thread będzie wyższa wydajność od Core Sandy Bridge z HT? Moim zdaniem Moduł który jest ok 25% większy od Core SB powinien być znacznie wydajniejszy niż 25% by można było stwierdzić że Moduł jest wydajniejszy względem Core SB na mm2 czy MHz. Ale czy tak istotnie będzie? Niebawem powinniśmy się przekonać :-)


  13. Pan John Fruehe swego czasu napisał że BD mimo swojej budowy będzie szybszy od obecnych jednostek takt w takt napisał także, że mimo modułowej budowy BD nadal jest 4, 6 lub 8 rdzeniowcem tak więc BD X4 > PII X4 itd.

    JF-AMD jest z działu marketingu a jak wiemy marketingowcy wmawiają że 4 rdzenie(Moduły) x86 z 8 klastrami Arytmetyczno-logicznymi(INT) to 8 Core. Moduł to tylko niektóre elementy dedykowane a nie na odwrót jak niektórzy próbują wmówić propagując tym samym marketing AMD. Jeżeli Frontend, Cache-Unit, FPU, Klaster INT, Cache L2 to tylko niektóre elementy współdzielone które zajmują 88% modułu to ja gratuluję logicznego myślenia. Dodatkowy klaster INT to 12% a nie licząc Cache L2 to jakieś 20%. x86 to właściwie Frontend bo to w nim znajdują się dekodery x86. Według patentów AMD Moduł to Core x86 a ten marketingowy rdzeń to Cluster INT. Filozofia architektur CMT(AMD) i SMT(Intel) jest taka sama tj. przetwarzanie dwóch wątków na jednym rdzeniu x86 tyle że podejście całkiem inne. SMT ma za zadanie obciążyć w Sandy Bridge jednostki INT(3ALU, 2AGU) drugim wątkiem gdyż pojedynczy nie potrafi ich optymalnie spożytkować co pięknie pokazuje wzrost wydajności dzięki HT(SMT). Natomiast CMT(Cluster Multi Threading) ma za zadanie obciążyć optymalnie dekoder x86 drugim klastrem INT ponieważ pojedynczy wątek gdyby nawet był jeden większy blok INT nie wykorzystał by nie tylko dekodera x86 ale i większą ilość jednostek INT więc uważam że klaster INT(2ALU, 2AGLU) do pojedynczego wątku to optimum a do lepszego obciążenia dekoderów x86 jest drugi klaster INT dedykowany dla drugiego wątku. Względem K10 przyrost wydajności powinien być znaczący gdyż blok INT K10 ma 3ALU/AGU i tylko 3 te jednostki mogą być obciążone jednocześnie a nie 6 których przecież jest teoretycznie właśnie tyle. Marketing rządzi się własnymi prawami.

×
×
  • Dodaj nową pozycję...