Skocz do zawartości

AMDK11

Forumowicze
  • Liczba zawartości

    571
  • Rejestracja

  • Ostatnia wizyta

Odpowiedzi dodane przez AMDK11


  1. 25 minut temu, kalderon napisał:

    To ciekawe bo np. w Cinebench (wiem, to niekoniecznie dobry wskaźnik IPC) Sunny Cove tylko dogonił Zena 2., a Cypress Cove dokłada do tego głównie wyższe zegary.

    Zastanawia mnie tylko po co tak duże zmiany jeśli przyniosły mizerny wzrost IPC a pochłonęły dużo tranzystorów. Np od Conroe do Skylake Intel dość zachowawczo rozbudowywał scheduler aż tu nagle przypierdzielił i to konkretnie w Sunny/CypressCove. 

     

    Coś z tymi przeciekami testów jest nie tak, albo Intel skopał projekt :hmm:


  2. Ogólnie patrząc na zmiany w mikroarchitekturze CypressCove względem Skylake to średni wzrost IPC 18% powinien być na bank ponieważ tak dużych zmian Intel nie wprowadzał między poprzednimi mikroarchitekturami co jest dość intrygujące.

    Sunny/CypressCove

    Przydział instrukcji 5-Way (Skylake 4-Way, Haswell 4-Way, SandyBridge 4-Way, Nehalem 4-Way, Conroe(Core 2) 4-Way)
    Przekolejkowywanie instrukcji(OoO(ROB)) 352 wpisy w locie (Skylake 224, Haswell 192, SandyBridge 168, Nehalem 128, Conroe(Core 2) 96)
    Scheduler 160 wpisów (Skylake 97, Broadwell 64, Haswell 60, SandyBridge 54, Nehalem 36, Conroe(Core 2) 32) 
    Register Files - Integer 280 wpisów + FP 224 wpisy (Skylake 180+168, Haswell 168+168, SandyBridge 160+144, Nehalem N/A, Conroe(Core 2) N/A) 
    Dispatch 10-Way(wysyłka z schedulera(porty jednostek wykonawczych)) (Skylake 8-Way, Haswell 8-Way, SandyBridge 6-Way, Nehalem 6-Way, Conroe(Core 2) 6-Way)

     


  3. Poprawiłem i uzupełniłem z grubsza wykaz zmian między CypressCove a Skylake. Dorzuciłem także porównanie z Zen 3: 

     

    Rdzeń x86 Skylake 217 milionów tranzystorów
    Front-end
    Cache L1-Instrukcji 32KB 8-Way
    µOP cache 1536 wpisów
    ITLB 8 wpisów(2M)
    Allocation Queue(IDQ) 64 µOP/wątek lub 128 µOP pojedynczy wątek
    LSD może wykryć do 64 µOP pętli/wątek lub 128 µOP pojedynczy wątek
    5-cio drożny dekoder x86(1 kompleksowy, 4 proste)
    Back-end
    Przydział instrukcji 4-Way
    Przekolejkowywanie instrukcji(OoO(ROB)) 224 wpisy w locie
    Scheduler 97 wpisów
    Register Files - Integer 180 wpisów + FP 168 wpisów
    Dispatch 8-Way(wysyłka z schedulera(porty jednostek wykonawczych))
    Execution Engine
    3x FP-ALU(Jednostki arytmetyczno-logiczne-zmienno-przecinkowe(2x FMAC 256bit))
    1x ALU(Jednostka arytmetyczno-logiczna)
    1x StoreData(magazyn danych)
    3x AGU(2x ładowanie adresów, 1x generowanie adresów)
    Memory subsystem
    In-Flight Loads 72 wpisy (ładowanie w locie z L1D)
    In-Flight Stores 56 wpisów (magazynowanie w locie do L1D)
    Cache L1-Danych 32KB 8-Way
    Cache L2 256KB 4-Way

    ------------------------------------------------------------------------------------------------------------------------

    Rdzeń x86 CypressCove 300 milionów tranzystorów
    Front-end
    Cache L1-Instrukcji 32KB 8-Way
    µOP cache 2250 wpisów
    Smarter prefetchers(inteligentniejszy preselektor)
    Improved Branch Predictor(ulepszony predyktor gałęzi)
    ITLB 16 wpisów(podwójne 2M)
    Allocation Queue(IDQ) 70 µOP/wątek lub 140 µOP pojedynczy wątek
    LSD może wykryć do 70 µOP pętli/wątek lub 140 µOP pojedynczy wątek
    5-cio drożny dekoder x86(1 kompleksowy, 4 proste)
    Back-end
    Przydział instrukcji 5-Way
    Przekolejkowywanie instrukcji(OoO(ROB)) 352 wpisy w locie
    Scheduler 160 wpisów
    Register Files - Integer 280 wpisów + FP 224 wpisy
    Dispatch 10-Way (wysyłka z schedulera(porty jednostek wykonawczych))
    Execution Engine
    3x FP-ALU(Jednostki arytmetyczno-logiczne-zmiennoprzecinkowe(1x FMAC512bit lub 2x FMAC256bit))(w rzeczywistości jest 1x FMAC512bit + 1x FMAC256bit)
    1x ALU(Jednostka arytmetyczno-logiczna)
    2x StoreData(magazyn danych)
    2x AGU(ładowanie adresów)
    2x AGU(generowanie adresów)
    Memory subsystem
    In-Flight Loads 128 wpisów (ładowanie w locie z L1D)
    In-Flight Stores 72 wpisy (magazynowanie w locie do L1D)
    Cache L1-Danych 48KB 12-Way
    Cache L2 512KB 8-Way

    -----------------------------------------------------------------------------------------------------------------------------

    Rdzeń x86 Zen3
    Front-end
    Cache L1-Instrukcji 32KB 8-Way
    µOP cache 4096 wpisów
    4-ro drożny dekoder x86(4 kompleksowe)
    Back-end
    Przekolejkowywanie instrukcji(OoO(ROB)) 256 wpisy w locie
    Scheduler Integer 96 wpisów
    Scheduler FP 64 wpisy
    Register Files Integer 192 wpisy
    Register Files FP 160 wpisów
    Dispatch Integer 10-Way(wysyłka z schedulera(porty jednostek wykonawczych))
    Dispatch FP 3-Way(wysyłka)
    Execution Engine
    6x FPU(jednostki zmiennoprzecinkowe 2x FMAC256bit)
    4x ALU(Jednostki arytmetyczno-logiczne)
    2x StoreData(magazyn danych)
    1x Dedicated Branch
    3x AGU(3x ładowanie adresów lub 2x magazynowanie adresów)
    Memory subsystem
    In-Flight Loads 72 wpisów (ładowanie w locie z L1D)
    In-Flight Stores 64 wpisy (magazynowanie w locie do L1D)
    Cache L1-Danych 32KB 8-Way
    Cache L2 512KB 8-Way


  4. 23 minuty temu, darkonza napisał:

    Pewnie ze można zawsze lepiej, problem w tym że czasem się to nie opłąca. Samoloty pasażerskie mogłyby spokojnie latać powyżej prędkości dźwięku, ale sie nie opłaca więc nie latają i podejrzewam że tak było z Skylake, jak sam obliczyłeś ilośc tranzystorów dla 8 rdzeni Rocket jest taka jak dla 11 rdzeni skylake, co daje do myślenia.

    No i dzięki za próbę rozpisania Zen3

    Tak to prawda. Wklejałem już to wcześniej a potwierdza to bardzo wysoką wydajność/przepustowość podsystemu cache na linii L1Data-Load/Store-AGU-StoreData w Sunny/CypressCove:

    2x StoreData(magazyn danych)
    2x AGU(ładowanie adresów)
    2x AGU(generowanie adresów)
    Memory subsystem
    In-Flight Loads 128 wpisów (ładowanie w locie z L1D)
    In-Flight Stores 72 wpisy (magazynowanie w locie do L1D)
    Cache L1-Danych 48KB 12-Way
    Cache L2 512KB 8-Way

      Intel-Core-i7-11700-AIDA_videocardz.jpg

    Intel-Core-i7-11700-AIDA2_videocardz.jpg

    Są to wartości wyrażane w GigaBajtach na sekundę(GB/s).


  5. 3 godziny temu, darkonza napisał:

    Masz gdzieś taką rozpiskę na Zen3? Przy okazji, zawsze się upierałem ze architektura "skylake" jest tak długowieczna nie ze względu na lenistwo Intela tylko ze względu na swoją "optymalność", w zenach da się wyciągnąc dużo wydajnosci niewielkimi dodatkami tranzystorów, żeby zwiększyć wydajnośc skylake trzeba rdzeń zwiększyć aż o 38% a efekty temu wzrostowi na pewno nie dorównają.

    Sam tą rozpiskę wykonałem na bazie dostępnych danych. Co do mikroarchitektury to żadna nie jest idealna i zawsze można zrobić coś lepiej np m.in stosując lepsze algorytmy sprzętowe które wcześniej nie były dostępne ze względu na czas opracowywania. W Zen 3  około 90% logiki zostało zastąpionej całkowicie nową. Jest to tak zwana agresywna optymalizacja która jeśli dobrze pamiętam pochłonęła ponad 10% więcej tranzystorów z tym że Zen-Zen3 mają tyle samo L2 bo 512KB a w CypressCove dochodzi jeszcze 48KB L1D.     

     

    Rdzeń x86 CypressCove 300 milionów tranzystorów (Zen3 ?)
    Front-end
    Cache L1-Instrukcji 32KB 8-Way
    µOP cache 2250 wpisów (Zen3 4096 wpisów)
    Smarter prefetchers(inteligentniejszy preselektor)
    Improved Branch Predictor(ulepszony predyktor gałęzi)
    ITLB 16 wpisów(podwójne 2M)
    IDQ 70 µOP
    LSD może wykryć do 70 µOP pętli
    5-cio drożny dekoder x86(1 kompleksowy, 4 proste) (Zen3 4-ro drożny dekoder x86(4 kompleksowe)
    Back-end
    Przydział instrukcji 5-Way
    Przekolejkowywanie instrukcji(OoO(ROB)) 352 wpisy w locie (Zen3 256 wpisów w locie)
    Scheduler zunifikowany 160 wpisów (Zen3 96 wpisów dla Integer)
    Dispatch 10-Way (wysyłka z schedulera(porty jednostek wykonawczych)) (Zen3 10-Way(w tym 1 dedykowana jednostka Branch) Integer)
    Execution Engine
    3x FP-ALU(Jednostki arytmetyczno-logiczne-zmiennoprzecinkowe(1x FMAC512bit lub 2x FMAC256bit))(w rzeczywistości jest 1x FMAC512bit + 1x FMAC256bit)
    1x ALU(Jednostka arytmetyczno-logiczna)
    2x StoreData(magazyn danych) (Zen3 2x SD)
    2x AGU(ładowanie adresów) (Zen3 3x AGU dla Ładowania i generowania adresów z tym że w jednym czasie może 3 ładunki albo 2 magazyny na takt)
    2x AGU(generowanie adresów)
    Memory subsystem
    In-Flight Loads 128 wpisów (ładowanie w locie z L1D) (Zen3 72 wpisy)
    In-Flight Stores 72 wpisy (magazynowanie w locie do L1D) (Zen3 64 wpisy)
    Cache L1-Danych 48KB 12-Way (Zen3 32KB 8-Way)
    Cache L2 512KB 8-Way (Zen3 512KB 8-Way)

     

    To tak na szybciaka. Jak będę miał czas to zrobię rozpiskę dedykowaną Zen3 ze względu na to że dla jednostek arytmetyczno-logicznych i zmiennoprzecinkowych są osobne schedulery i porty wykonawcze podczas gdy Intel ma scheduler ujednolicony a na pierwszych trzech portach ALU pełni również funkcję FPU. 


  6. Z grubsza różnice w rdzeniu x86:

    Rdzeń x86 Skylake 217 milionów tranzystorów
    Front-end
    Cache L1-Instrukcji 32KB 8-Way
    µOP cache 1536 wpisów
    ITLB 8 wpisów(2M)
    IDQ 64 µOP
    LSD może wykryć do 64 µOP pętli
    5-cio drożny dekoder x86(1 kompleksowy, 4 proste)
    Back-end
    Przydział instrukcji 4-Way
    Przekolejkowywanie instrukcji(OoO(ROB)) 224 wpisy w locie
    Scheduler 97 wpisów
    Dispatch 8-Way(wysyłka z schedulera(porty jednostek wykonawczych))
    Execution Engine
    3x FP-ALU(Jednostki arytmetyczno-logiczne-zmiennoprzecinkowe(2x FMAC 256bit))
    1x ALU(Jednostka arytmetyczno-logiczna)
    1x StoreData(magazyn danych)
    3x AGU(2x ładowanie adresów, 1x generowanie adresów)
    Memory subsystem
    In-Flight Loads 72 wpisy (ładowanie w locie z L1D)
    In-Flight Stores 56 wpisów (magazynowanie w locie do L1D)
    Cache L1-Danych 32KB 8-Way
    Cache L2 256KB 4-Way

    Rdzeń x86 CypressCove 300 milionów tranzystorów(38% więcej)
    Front-end
    Cache L1-Instrukcji 32KB 8-Way
    µOP cache 2250 wpisów(+46.5%)
    Smarter prefetchers(inteligentniejszy preselektor)
    Improved Branch Predictor(ulepszony predyktor gałęzi)
    ITLB 16 wpisów(podwójne 2M)(+100%)
    IDQ 70 µOP(+9.3%)
    LSD może wykryć do 70 µOP pętli(+9.3%)
    5-cio drożny dekoder x86(1 kompleksowy, 4 proste)
    Back-end
    Przydział instrukcji 5-Way(+25%)
    Przekolejkowywanie instrukcji(OoO(ROB)) 352 wpisy w locie(+57%)
    Scheduler 160 wpisów(+65%)
    Dispatch 10-Way (wysyłka z schedulera(porty jednostek wykonawczych))(+25%)
    Execution Engine
    3x FP-ALU(Jednostki arytmetyczno-logiczne-zmiennoprzecinkowe(1x FMAC512bit lub 2x FMAC256bit))(w rzeczywistości jest 1x FMAC512bit + 1x FMAC256bit)
    1x ALU(Jednostka arytmetyczno-logiczna)
    2x StoreData(magazyn danych)(+100%)
    2x AGU(ładowanie adresów)
    2x AGU(generowanie adresów)(+100%)
    Memory subsystem
    In-Flight Loads 128 wpisów (ładowanie w locie z L1D)(+77.7%)
    In-Flight Stores 72 wpisy (magazynowanie w locie do L1D)(+28,5%)
    Cache L1-Danych 48KB 12-Way(+50%)
    Cache L2 512KB 8-Way(+100%)


  7. 3 godziny temu, Roberto78 napisał:

    Na LGA775 było  oprócz  Pentium D (jak dupa :E) także Core2 Duo które było wydajniejsze od X2  AMD jako pierwsze wprowadziło IMC do procesora Intel w C2D  zrobił to samo

    Intel IMC wprowadził do procesora pierwszy raz w Nehalemie czyli pierwszym Core i.


  8. 10 godzin temu, jurekk napisał:

    No tak intel zwielokrotnia kesz do rdzenia w przeciwieństwie do amd to i łatwo policzyć ?

    Nie policzysz wzrostu IPC rdzenia do rdzenia mając dwa różne procesory z inną ilością rdzeni a co za tym idzie ilości L3. Cometlake to 10 rdzeni x 2MB co daje 20MB a RocketLake to 8 rdzeni x 2MB co daje 16MB i na pewno ma wpływ na wyniki. Ten test Intela był w jednym scenariuszu i to 8 vs 10 rdzeni co daje do 19% takt w takt dla 8 rdzeni CypressCove. To tak jakby np AMD porównywało IPC Zen 2 16 rdzeni z 8-12 rdzeniami Zen3 takt w takt. To jest tylko ciekawostka i nie ma żadnego porównania rdzeń do rdzenia. Na 100% AMD mierzyło IPC 8 rdzeni Zen3 do 8 rdzeni Zen2.

    Intel zaś powinien mierzyć IPC 11900K do 9900K czyli 8 rdzeni CypressCove do 8 rdzeni Skylake co myślę było by najwłaściwsze w kontekście mierzenia IPC. RocketLake jak i Kabylake to fizycznie układy 8-mio rdzeniowe z identyczną pojemnością L3 16MB.

     

    Samo IPC odnosi się do pojedynczego rdzenia x86. CypressCove jest niczym innym jak SunnyCove w 14nm i póki co uważam że ten slajd odnosi się do wzrostu IPC  tak samo SunnyCove jak i CypressCove i jeśli testy Anandtech to potwierdzą to będzie naprawdę porządna aktualizacja nowej mikroarchitektury zwłaszcza że została ukończona w drugiej połowie 2018 roku.

    W przeciwnym razie jeśli średnio będzie 8-10% to moim zdaniem RocketLake będzie klapą a zmiany w mikroarchitekturze poszły w gwizdek. Inaczej tego nie widzę.


  9. 2 godziny temu, kalderon napisał:

    To co wklejałem to przypis Intela do twierdzeń o wzroście IPC o 19%. Przypis do tego:

    wEkSU0p.jpg

    Innymi słowy Intel twierdzi, że IPC wzrosło o 19%, a zostało to ustalone w ten sposób:

    UICxA0n.jpg

    Czyli zmierzyli wyższy IPC na podstawie testu 8 rdzeni CypressCove do 10 rdzeni Skylake takt w takt więc w kontekście tego wcale nie dziwi mnie że z dwoma rdzeniami mniej jest do 19% :E

    IPC mierzy się rdzeń do rdzenia czyli powinno być 8 rdzeni CypressCove do 8 rdzeni Skylake jak już coś ;)

     

    Coraz dziwniejsze te testy IPC Intela. IPC generalnie określa jaki wzrost instrukcji na takt zegarowy dały zmiany w mikroarchitekturze w szeregu różnych scenariuszy. Według Intela zysk IPC dla SunnyCove względem Skylake jest od 3-40% z średnią 18%. Te pogrubione słupki to podobno testy z łatkami bezpieczeństwa które jak wiadomo notują spadek wydajności.

    W przypadku testu IPC Zen3 na Anandtech użyto m.in podobnego zestawu testów z których wynika że wzrost IPC względem Zen2 jest w przedziale 1-46% z średnią 19%. Tylko jeden test daje 106% co w tym przypadku podbija średnią do 21%.

    38719_9.jpg

    Dalej uważam że ten slajd Intela dotyczy rdzenia x86 CypressCove/SunnyCove a testy Anandtech to potwierdzą lub obalą :)

     


  10. 20 godzin temu, Damiankowalski napisał:

    wydaje mi sie ze ostatnio mówiłeś ze 3

    Nie ma to znaczenia.Pisałem o skalowalności .Albo rdzeń jest tak zoptymalizowany ze drugi watek nie ma za wiele do roboty albo cosik nie poszło bo jest gorzej jak na komecie.Brakuje 1 punktu

    d008aab8a4032010c0f0031a5856c0162053405a

    No popatrz jak ładnie skaluje się Rocketlake(zwróć uwagę na testy cząstkowe CPU), niby taktowany zegarem 5.3GHz a jednak kilka razy wolniejszy od procesora uzbrojonego w 25% rdzeni więcej :E

    Możliwe że mocno spada taktowanie lub błędy wczesnej wersji mikrokodu.

    Intel-Core-i9-11900K-AIDA64.jpg?time=161

     

    Teraz jest lepiej ale wciąż liczę że obecne przecieki są jeszcze na niedopracowanym mikrokodzie :)

    Wyroki i osądy dam po szczegółowych testach na Anandtech.

    • Like 1

  11. 12 minut temu, Roberto78 napisał:

    Z  Twojego źródła wynika tyle :E

     

    ''source intel estimates of january 2021
    Based on measurements on Intel Internal
    reference platforms running SPEC CPU 2017 1-copy rate on  11th gen Intel  Core I9 11900k vs 10th Gen Intel Core i9-10900k running each at the same fixed frequency''

    Google translate

    ''źródło szacunków Intel ze stycznia 2021 r Na podstawie pomiarów wewnętrznych Intel platformy referencyjne z procesorem SPEC 2017 o szybkości 1 kopiowania na procesorach Intel Core I9 11900k 11. generacji w porównaniu z procesorami Intel Core i9-10900k dziesiątej generacji z tą samą stałą częstotliwością''

    Przecież to nawet nie jest miarą IPC a test który porównuje wydajność 8 rdzeni CypressCove do 10 rdzeni Cometlake czyli RocketLake szybszy do 19% :D

     

    SunnyCove/CypressCove ma wyższy IPC średnio o 18% z tym że do 40%(rdzeń vs rdzeń).

     


  12. 22 minuty temu, eagle napisał:

    Miałem ochotę obok postawić do zabawy coś na serii 11 ale im więcej czytam tym widzę że to raczej nie warte zachodu. Opierając się na przeciekach jest 19% ale tylko w praktycznie niemożliwym przypadku kiedy chodzi jeden wątek bez HT. Jestem ciekawy jaka jest różnica w testach sky vs rakieta przy jednym rdzeniu ale przy włączonym smt (2 wątkach)? W multi jeszcze gorzej. O grach nie wspominam ponieważ uśredniając te niby wyniki z przecieków robi się jeszcze mniej ciekawie 4-6%. Serio życzę powodzenia, lubię nowości i kocham zmiany w sprzęcie ale... to to? Idąc dalej Intel woli się ratować jakimiś przeciekami o cudownych transferach z dysków pci-e 4.0. Ok rozumiem na bezrybiu i rak ryba, przepraszam ssd (ciekawe czy Sony ich oskarży o podkradanie pomysłu tą reklama ala ssd  :E ) Osobiście mam nadzieję że nic z mojego ględzenia się nie sprawdzi i będzie gorące ale wydajne 8 core z 10-15% boostem w stosunku do sky co dobrze dokopie AMD i napędzi dalszą konkurencję.

    Jeśli będzie średnio 6-8% wyższe IPC to będzie to totalna klapa i gra nie warta świeczki w odniesieniu do 10 rdzeniowego Cometlake.


  13. 3 godziny temu, rainy napisał:

    Nie wiem, skąd wziąłeś te 19 procent IPC, jeżeli Intel na swoich slajdach podaje do (up to) 19 procent, więc średnio będzie z całą pewnością mniej.

    Btw, dla układu graficznego jest podawane do 50 procent wzrostu wydajności.

    Intel podaje na slajdach Rocketlake do 19% wyższe IPC ale na Anandtech zauważono że ten wynik uzyskano w bardzo wąskim zakresie testów. CypressCove to kalka SunnyCove a tutaj Intel podaje średnią 18% w porywach do 40% z wykorzystaniem AVX512F. Komu teraz wierzyć i w które slajdy skoro nawet przy premierze Icelake-SP na slajdach popełniono błąd który podaje że rdzeń SunnyCove ma ROB 384 poczas gdy później sprostowano w wywiadzie że rdzeń od oryginalnego SunnyCove niczym nie różni się jeśli chodzi o x86 czyli w rzeczywistości jest ROB 352. Na slajdzie do dzisiaj widnieje błąd.

     

    Czekam na kompleksowe testy na Anandtech RocketLake które pokażą rzeczywisty wzrost IPC CypressCove.

     

    Edit:

    Poza tym do 19% wyższe IPC oznaczało by z wykorzystaniem AVX512F to ile było by średnio dla typowych zadań? 8%? Wówczas była by to totalna klapa wobec zmian jakie poczyniono w mikroarchitekturze ;)

     


  14. L2 jest 2x większy ale:

    Skylake L2 256KB 4-Way

    CypressCove L2 512KB 8-Way

    https://sf5brwm5lqo6crwwq47r6skkom-jj2cvlaia66be-videocardz-com.translate.goog/newz/intel-core-i7-11700-non-k-rocket-lake-s-qs-cpu-review-posted-ahead-of-launch

    Intel-Core-i7-11700-AIDA_videocardz.jpgIntel-Core-i7-11700-AIDA2_videocardz.jpgIntel-Core-i7-11700-AIDA3_videocardz.jpg

    Co do L3 to faktycznie dziwnie niskie są te wyniki skoro nawet wersja ES 1.8GHz ma wyższe bo jeśli o L2 chodzi to jest nadspodziewanie dobrze.

    Co do L1D to:

    Skylake

    3AGU+1SD

    Load 72

    Store 56

    L1D 32KB 8-Way

     

    Zen 3

    3AGU+2SD

    Load 72

    Store 64

    L1D 32KB 8-Way

     

    CypressCove

    4AGU(+33% względem Skylake i Zen 3)+2SD(2x Skylake)

    Load 128(+77.7% względem Skyale i Zen3)

    Store 72(+28% względem Skylake i +12.5% względem Zen 3)

    L1D 48KB 12-Way(+50% względem Skylake i Zen 3)

    Edit:

    Z drugiej strony 11700 ma znacznie niższe taktowanie niż wersja 11700K i jeszcze niższe niż 11900K także nic tylko czekać na testy Anandtech.

     

     


  15. 34 minuty temu, Damiankowalski napisał:

    intel-core-i9-11900k-i9-10900k-benchmark

     

    MP ratio 8,76 vs 11.91.Cosik słabo to wyglada bo z zegara 5.2 dla wszystkich rdzeni.

    Na rakiecie ginie gdzieś 8 procent?

    Chyba ze założenie błędne bo powinno sie porównać do 10700k który ma 16mb keszu

    Core i9-11900K to 8 rdzeni CypressCove czyli tyle samo co ma Core i7-10700K bo 8 rdzeni Skylake.

    x86 Skylake(L1D 32KB) + L2(256KB) to 217 mln tranzystorów

    x86 CypressCove(L1D 48 KB) + L2(512KB) to 300 mln tranzystorów czyli o 38% więcej i około 15-19% wyższe IPC

    15-19% wyższe IPC 8 rdzeni CypressCove raczej nie zrównoważy 25% więcej rdzeni Skylake.

    Trzeba też popatrzyć na to z innej strony:

    8 rdzeni CypressCove a każdy po 300 mln tranzystorów daje w sumie 2.4 mld tranzystorów z samych rdzeni podczas gdy 10 rdzeni Skylake to 2.17 mld tranzystorów. Inaczej pisząc 8 rdzeni w

    Rocketlake zajmuje 11.6% więcej tranzystorów a tym samym powierzchni(zakładając podobną gęstość 14nm) co 10 rdzeni w Cannonlake. Na powierzchni 8 rdzeni CypreassCove zmieściło by się 11 rdzeni Skylake.

    Do póki nie będzie szczegółowych testów Rocketlake na Anandtech nie będę tymi testami/przeciekami zawiedziony czy zachwycony. Zobaczymy co z tego wyjdzie.  

     

    EDIT:

    Oczywiście można mieć obawy i zawód że 8 rdzeni x86 CypressCove które zajmują powierzchnię i ilość tranzystorów 11 rdzeni Skylake niezrównowarzy IPC 10 rdzeni Skylake ale z drugiej strony CypressCove powinien być już dawno i to w postaci SunnyCove czyli w 10nm. W 10nm możliwe że było by 10 lub nawet 12 rdzeni. Tego raczej nigdy się nie dowiemy. 

     

     


  16. 7 godzin temu, Kyle_PL napisał:

    Jeden rdzeń dzięki SMT, to jeden zestaw jednostek wykonawczych i dwa zestawy jednostek tłumaczących rozkazy (SMT tylko dubluje jednostki tłumaczące rozkazy). Mnie, jak i sądzę większość, interesuje wydajność pojedynczego zestawu jednostek tłumaczących i wykonawczych.

    Jeśli się okaże, że HT nic nie daje w Rocket (jakoś w to wątpię) to co z tego? ... poza tym, że SMT będzie można sobie wyłączyć eliminując spadek wydajności w niektórych aplikacjach? 😄

    Nie wiem skąd wziąłeś że SMT to dwa zestawy jednostek od tłumaczenia rozkazów? Każdy współczesny rdzeń x86 dysponuje 4(Zen 3) lub 5(Skylake/SunnyCove/CypressCove/WillowCove) dekoderami rozkazów x86 a SMT ma za zadanie wolne zasoby rdzenia x86 nasycić drugim wątkiem. SMT poszerza pewne bufory lub nawet je podwaja ale samych jednostek wykonawczych czy dekoderów rozkazów x86 z tego powodu więcej nie ma. W Netbrust czyli Pentium 4 SMT stanowiło 5% logiki rdzenia x86 natomiast we współczesnym x86 uważam że SMT raczej nie stanowi więcej lub dużo więcej jak 5%. Szerokie rdzenie x86 są projektowane pod kątem jak najwyższego IPC a że tak szeroki rdzeń ciężko nasycić w każdym typem kodu i przez większość czasu pojedynczym wątkiem to w im mniejszym stopniu dany kod nasyca zasoby rdzenia tym więcej daje drugi wątek. Oczywiście wówczas wszystko zależy od wąskich gardeł mikroarchitektury np cache(walka dwóch wątków o zasoby) itd przez co SMT potrafi nawet przynieść spadek wydajności. W sumie jeśli spadek SMT w pewych scenariuszach jest rzędu paru % to raczej mniej sensowne jest jego wyłączenie.

    • Upvote 1

  17. Wypowiedź jednego z komentujących pod newsem o Icelake-SP na servethehome:
    "Bob Dobbs 5 lutego 2021 o 9:35
    ssnseawolf

    „Ich produkty to bałagan i są niedostępne we wszystkich segmentach - oczywiście Cooper Lake (i zgodnie z projektem), ale spróbuj kupić P5800x, większość SKU e810 lub PMEM”.

    Produkty nie są bałaganem.

    Ice Lake SP jest wysyłany do producentów OEM (bardzo duża ilość)
    Rocket Lake w lutym
    Alder Lake przed Świętami 2021
    Sapphire Rapids w tym roku.

    Gdzie jest bałagan? Cooper Lake zawsze miał być niskobudżetowy - dla określonej grupy klientów - jaki masz przypadek zastosowania dla gniazd od 4 do 8?

    P5800X trafi na rynek, do którego jest przeznaczony - macierze SAN dla centrów danych - z ogromną sprzedażą.

    Mam 8 NVDIMM mniej niż miesiąc temu - i nie było czekania - znowu - trafiają do dużych producentów OEM - najpoważniejsze serwery są sprzedawane przez producentów OEM (Dell HPE Lenovo itp.)

    Spróbuj zdobyć cokolwiek Zen 3…

    Bob Dobbs 5 lutego 2021 r. O 9:38
    Bob Hannent

    „To bardzo ryzykowna strategia dla firmy Intel, biorąc pod uwagę rozwój AMD na całym świecie”

    wszędzie z wyjątkiem laptopów, komputerów stacjonarnych i serwerów.

    AMD traci udział w rynku. Epyc ma penetrację tylko wśród dostawców chmury, więc mogą oni udostępniać instancje Epyc obok instancji Intel."

×
×
  • Dodaj nową pozycję...