Skocz do zawartości

AMDK11

Forumowicze
  • Liczba zawartości

    531
  • Rejestracja

  • Ostatnia wizyta

Odpowiedzi dodane przez AMDK11


  1. Zintegrowany kontroler ma sens gdyby Zen 1 był procesorem monolityczny - ale tak nie jest.

    Mamy tam 1 podstawkowy system NUMA, który stwarza wiele problemów wydajnościowych. W szczególności właśnie z szybkością dostępu do pamięci.

    Dostajemy do domu system z układem wieloprocesorowym, gdy powszechnie używane oprogramowanie (Windows) nie potrafi się właściwie z nim obchodzić.

    Dla tego też napisałem że na AM4 najlepszym wyjściem był by osobny projekt monolitycznego układu.

    Natomiast na TR4 w Threadripper powinien być wybór między monolitycznym układem a wielordzeniowoymi chipletami.

     

    Stary pomysł zaadaptowano to wymagań współczesnych czasów.

    Nie tyle zaadoptowano stary pomysł do współczesnych czasów co jest to po prostu podyktowane obecną sytuacją. W GF 7nm się posypało a TSMC nie produkuje tylko dla AMD a sporo dla Nvidii i wielu innych także moce produkcyjne są mocno ograniczone. Obecna sytuacja nie przesądza kierunku rozwoju CPU a za dwa lata wszystko może się zmienić.

     

    Dla AMD z powodów ekonomicznych i ograniczonych dostępnych mocy produkcyjnych lepiej na ten moment kontroler RAM i PCI-Ex przenieść do osobnego układu I/O zwłaszcza że fizycznie wyprowadzenia do połączeń z ścieżkami PCB procesora na układzie krzemowym nie da się zbytnio miniaturyzować a zajmują sporo miejsca. Im mniejsze chiplety tym więcej można ich wyprodukować choć z technologicznego i wydajnościowego punktu widzenia kontroler RAM/PCI-Ex na osobnym układzie I/O to dodatkowe opuźnienia w dostępie do RAM tym samym regres do czasów Athlona XP i Core 2.


  2. Tak źle i tak nie dobrze :) Dla układu AMD EPYC/Intel Xeon dzielony kontroler na osobnych chipletach/układach nie stanowi jakiegoś dużego problemu poneważ i tak to działa jak system wieloprocesorowy ale dla układu Ryzen na AM4 moim zdaniem problem już jest i kontroler RAM na osobnym układzie IO nie rozwiąże problemu w dostępie rdzeni x86 do pamięci RAM. Na AM4 powinien być osobny projekt z kontrolerem RAM na tym samym plastrze krzemowym co rdzenie x86 i nie połączone za pomocą IF tylko coś na kształt magistrali pierścieniowej Intela, ale... no właśnie kolejny projekt to dodatkowy koszt dla AMD i ryzyko że gdyby TSMC miało problem z 7nm, Ryzen na AM4 miał by niższy prorytet produkcyjny zwłaszcza że taki układ miał by sporo większą powierzchnię niż 8 rdzeniowy chiplet za sprawą kontrolera RAM i dodatkowych 4 rdzeni.

     

    Wcale się nie zdziwię jak Zen5 to będzie osobny i monolityczny układ z kontrolerem pamięci RAM na podstawkę pokroju AM4(wspomnicie to co napisałem) :)

     

    Intel ma problem z dostarczeniem odpowiedniej ilości 8 i 10 rdzeniowych układów bo to sporo większa powierzchnia niż 4-6 rdzeni + bardziej rozbudowane IGPU w tym samym 14nm procesie produkcyjnym i co za tym idzie, mniej układów z wafla a priorytetem dla Intela jest Xeon :)

     

     

    Ciekawostka:

     

    x86-64(Ala CISC-RISC) Intel Xeon, Xeon X2 i AMD EPYC, EPYC X2 w przeważającej większości testów "leją" RISC-owe IBM POWER9 44 rdzenie i POWER9 44 rdzenie X2 aż miło :)


  3. Co do nowych procesorów opartych na rdzeniach Zen2 nie podoba mi się osobny układ IO z kontrolerem RAM, ponieważ jest to powrót do przeszłości, czyli czasy gdy kontroler pamięci RAM znajdował się w mostku północnym - Athlon XP i Core 2. Pamiętacie zapewne jak AMD w czasach Athlon64 w którym kontroler pamięci znajdował się w tym samym układzie krzemowym co rdzenie x86 wystawiało to rozwiązanie jako działo armatnie przeciwko Intelowi gdzie była to innowacja. Widzę że teraz AMD wracając do kontrolera w osobnym chipsecie przedstawia to jako innowacje a wszyscy to podchwytują. Prawda jest taka że ROME czy Matisse oparte o Zen2 to nic innego jak projekt wieloprocesorowy z kontrolerem w mostku północnym. Wszystkie zalety kontrolera umieszczonego razem z rdzeniami x86, połączonego za pomocą wewnętrznej magistrali zostają porzucone na rzecz wad za czasów Athlona XP i Core 2. Zen pierwszej generacji już wprowadził opóźnienia za sprawą połączenia rdzeni x86 z kontrolerem RAM za pomocą IF(mimo że jest to ciągle jeden układ) to Matisse pogłębi to jeszcze bardziej.

     

     

    Co do tego że AMD projektowało Zen i Zen2 od podstaw w ten sposób a Intel naprędce połączył dwa układy Xeon na jednej płytce PCB - czym jest Infinity Fabric? IF jest tym samym co Hyper Transport(AMD), QPI/DMI(Intel) które wywodzą się bezpośrednio z linii PCI-Ex. Xeony mają dodatkowe wyprowadzenia QPI dla systemów wieloprocesorowych za pomocą którego Procesory komunikują się pomiędzy sobą na osobnych gniazdach, czyli Intel w Xeonie zrobił nic innego jak to co AMD w EPYC a AMD w EPYC to co Intel w Xeonie :). Zeppline i Matisse też są dodatkowe wyprowadzenia Infimnity Fabric do komunikacji wieloprocesorowej dla EPYC. Na nie korzyść ROME(EPYC 2) i Matisse(Ryzen) jest osobny kontroler pamięci RAM na osobnym układzie IO czyli mostek północny co pogłębi opóźnienia w komunikacji rdzeni x86 z pamięcią RAM. Także wątpię że niskie ceny Ryzena czy Epyca mają źródło w chipletach ponieważ gdyby AMD mogło sprzedawało by CPU znacznie drożej ale by być konkurencyjni muszą dawać więcej rdzeni w niższej cenie zwłaszcza że od czasów Phenoma(K10) nie mieli czym konkurować z Intelem.

     

     

    Ktoś napisze że chiplet obniża cenę procesorów a moim zdaniem owszem obniża ale tylko koszty AMD ponieważ dzięki temu są tylko trzy projekty - chiplet(8 rdzeni) Matisse((Zen2)Ryzen, Ryzen Threadrpper, EPYC), APU i mostek północny IO z kontrolerem RAM. Chiplet jest obniżeniem kosztów AMD i zabezpieczeniem na wypadek gdyby TSMC nie wyrabiał z produkcją w 7nm, ponieważ AMD może elastynie zmieniać priorytet zgodnie z zapotrzebowaniem rynku na Ryzen, Threadripper lub EPYC tłukąc ośmio-rdzeniowe chiplety na potęgę.


  4. https://forums.anandtech.com/threads/speculation-ryzen-3000-series.2558009/page-89

     

    Google translation i bez zrzutów:

    Nawiasem mówiąc, był jeszcze jeden wyciek Sisoft z 4-rdzeniową próbką mattisse

    Zostało teraz usunięte :anguished: , ale na szczęście wczoraj zrobiłem zrzut ekranu (niestety przycięty).

     

    Szczególnie interesujące były obciążenia „Arytmetyka procesora” i „Multimedia procesora” (AVX2).

     

    Są to obniżone wyniki czterordzeniowej próbki Matisse (Zen 2) działającej przy 3,8 GHz

    (Arytmetyka powyżej, Multimedia poniżej):

     

     

    Oto średnie wyniki dla zapasów I7 6700K dla odniesienia, wraz z podanymi prędkościami zegara (400 MHz szybciej niż Zen 2):

     

    Są to średnie wyniki akcji R5 1500X

     

     

    Teraz, oczywiście, z górami soli , ponieważ wielkość próby do porównania jest pojedynczą próbką inżynieryjną a średnią innych procesorów, ale

     

    W porównaniu ze Skylake (6700K) próbka Matisse'a miała 10% deficyt prędkości zegara. Normalizując prędkość zegara, próbka Matisse'a miała:

    ~ 5% wyższy IPC w teście arytmetycznym

    ~ 12,5% wyższy IPC w wektorowym teście multimedialnym

    Aby być uczciwym, istnieją inne wyniki 6700 tys. Akcji, w których różnica jest mniejsza (3% i 6%), ale Matisse nadal jest nieco szybszy na zegar

     

    Najważniejsze informacje:

    Wydajność AVX2 rzeczywiście podwoiła się w porównaniu z zen 1, rywalizując z wydajnością 2700X w 4-rdzeniowej próbce inżynierskiej o niższym taktowaniu

    IPC, w tym małym podzbiorze testów jest szyjka do szyi Skylake, przewyższając go bardzo nieznacznie

    W końcu wydaje się, że będzie to dotyczyło prędkości zegara :)

    Ogólnie AMD powinno być bardzo konkurencyjne w profesjonalnych obciążeniach, nawet z deficytem prędkości 100-200 MHz


  5. Up

    Przydały by się jakieś konkretne wyliczenia ile wydajność by wzrosła gdyby poprawić skuteczność predyktora do blisko 100%. Wychodzi więc na to by dodać kolejne potoki wykonawcze, czyli dekodery x86 trzeba konkretnie rozbudować predyktor a w tym bufory i cache m.in L0 by więcej przewidywać.


  6. Jeśli skutecznośc wzrośnie z 98 na 99% to wydajność wzrosnie o około 1%, czyli w zasadzie nic. Właśnie dlatego mówie o ścianie, skutecznosc przewidywania jest prawie doskonała i jej poprawa niewiele wnosi.

    Można poprawiac szybkośc pamięci L1 czy tam jej wielkość tylko to tez da kosmetycznną poprawę.

    Duży skok dałoby dołożenie kolejnego potoku tak by w kazdym cyklu zegara proc liczył jedną wiecej instrukcję, gdyby zachowac skutecznosc predykcji na obecnym poziomie to by dało ze 20% wzrostu IPC - czyli ogromnny skok, ale nikt nie umie opracowac skutecznej predykcji dla jednego potoku więcej, od wielu lat.

    Dlatego Intel stoi przy "ścianie IPC", a AMD w szybkim tempem się do ściany zbliża.

    Moim zdaniem jesteśmy już na to za głupi by tą ściane przekroczyć.

    Pies nigdy nie zaprojektuje latarki bo jest psem i jego sufit mozliwosci jest za nisko.

    Nasz "sufit" jest w okolicach obecnej "ściany IPC" :)

    Wydaje mi sie ze dopiero jakieś algorytmy SI zaprojektują w przyszłosci jakas lepsza predykcję tak jak dziś odkrywają nowe posuniecia w szachach:

    https://www.wykop.pl/wpis/33521131/niesamowita-partia-od-leela-chess-zero-przechodzi-/

    czy ucza nas od nowa strategi gry w "Go".

    1% poprawy predykcji rozgałęzień nie jest równe 1% wzrostu wydajności rdzenia :)


  7. Po Sandy bridge gdy zdobył olbrzymią przewagę i uiciekał nadal, nic mu nie przeszkadzało wtedy tym że AMD nie goni.

     

     

     

    Problemy z 10nm nie maja zupełnie nic do rzeczy, bo IPC można zwiększać tak samo w 14nm jak i w 10nm.

     

    p.s. z Tego co mi sie obiło o uszy to skutecznośc przewidywania w Intelach wynosiła coś w okolicach 99%, więc teoretyczni3 wydaje sie że dołożyć potoków i nawet jak skutecznośc spadnie do np. 75% i tak będzie sie do przodu, ale tak nie jest, wszystko się rozlatuje.

    Sam proces technologiczny nie ma nic do IPC poza tym że Icelake(SunnyCove) był ściśle projektowany pod 10nm i problem z tym procesem spowodował poślizg.

    Gdyby nie to Icelake na rdzeniach Sunny Cove był by pod koniec 2017 roku.

     

    Skuteczność predykcji Intela wynosi 98-99% tyle że każdy ułamek % poprawy skuteczności tej logiki powoduje znaczny wzrost wydajności.

     

    Co prawda to tylko spekulacje ale podobno dodanie potoków pobocznych może dać spory wzrost wydajności. Gdy przewidywanie okaże się błędne potok musi zostać wstrzymany i wyczyszczony wówczas potok poboczny może wykonywać inną część kodu podczas przeładowywania potoku.

    Z tych spekulacji co do potoku pobocznego to może on dać na wstępie ok 30%. Na pewno trwają prace nad nowymi mechanizmami/algorytmami które w przyszłości podbiją IPC.

    Bezczynność jednostek wykonawczych w trakcie oczekiwania na dane to większość czasu także jest co poprawiać m.in we front-endzie by zwiększyć czas ich użycia.

    Sporym hamulcem są także przestarzałe tryby adresowania w x86-64 i gdyby ich się pozbyć też sporo by to dało.

    Uważam że teraz nie ma co wyrokować ponieważ obecna sytuacja niczego nie przesądza i trzeba poczekać na Zen2, Sunny Cove, Zen5, Golden Cove i następne co przyniosą a oficjalnie te mikroarchitektury mają przynieść wzrost IPC.

     

    Czas pokaże czy jesteśmy u granic IPC.


  8. Sprostuję tylko to że według Wikichip Sunny Cove(IceLake) miał zastąpić Palm Cove(Cannonlake czyli Skylake z poprawkami w 10nm który miał być w 2016r) pod koniec 2017 roku czyli mikroarchitektóra Sunny Cove jest gotowa od kilku lat.

     

     

    @rainy

    Niech Ci będzie że jestem trolem do kwadratu :)

    Co do tego że mój nick jest trolowaty to nie zgodzę się ponieważ zakładałem konto za czasów gdy czekałem na następcę K10(Phenom) i nie zmienię tylko dla tego że komuś to nie pasuje.

    Tak w gwoli ścisłości nie utożsamiam się z żadną z korporacji. Za Intelem jestem od czasu wypuszczenia przez AMD Bulldozera (FX).

     

    Fakt, temat za bardzo poszedł innym kierunku. Od teraz jeśli będę pisał to tylko o Zen2.

     

    Cały czas poluję na zdjęcie struktury rdzeni(Zen2) układu Matisse. Ciekawe kiedy wycieknie do sieci.


  9. Coś ci się chyba pomyliło. W 2017 miał być CannonLake w 10nm, który zaliczył poślizg i do dzisiaj się nie ukazał. Ale to nie jest nowa architektura SunnyCove, tylko jest to nadal SkyLake przeniesiony do 10nm.

    Tak to prawda, mój błąd. CannonLake to Skylake przeniesiony do 10nm i miałby premierę w 2017 roku gdyby nie problemy z tymże procesem technologicznym więc logiczne że się nie pojawił, zamiast tego tylko kolejne rewizje Skylake w 14nm + weięcej rdzeni. To wszystko co Intel z powodu problemów z 10nm mógł zrobić.

     

    Zen 2 na pewno ma poprawiony bo ma co poprawiać, tam jest dużo do zrobienia, ale Sunny Cove wątpie, od szóstej geenracji ciągle to samo mimo ze prawie zawsze były plotki iż IPC w końcu wzrośnie.

    Przy okazji, własnie ta "ściana" z taktowaniem oraz przewidywaniem skoków (i w efekcie z IPC) pozwoliła AMD gonić Intela, bo ten mimo ogromnych nakładów na R&D nie był w stanie uciekac już tak szybko jak wcześniej. To sie okazało za trudne.

    Nawet na slajdach Intela jest że w Sunny Cove zostały poprawione algorytmy przewidywania skoków i rozgałęzień. Przecież od czasów Phenoma(K10) czyli 2007 roku do 2017 roku(Zen) czyli 10 lat AMD nie miało czym konkurować z Intelem więc przed czym miał uciekać? Przed samym sobą? Korzystał z tej sytuacji i doił $ ile się da nie wysilając się zbytnio.

    Twierdzisz że IPC dobiło do ściany a moim zdaniem jesteś w błędzie ponieważ patrzysz na obecną sytuację i myślisz że ta tendencja się utrzyma gdzie za rok lub dwa wszystko może się zmienić. Cała ta sytuacja jest spowodowana problemami Intela z 10 nanometrowym procesem technologicznym na który projektowany był Sunny Cove(IceLake).

    Skylake miał premierę w sierpniu 2015 natomiast nad Sunny Cove prace musiały już trwać a nawet mogły być na zaawansowanym etapie. Gdyby nie problemy z 10nm to wyszedł by zgodnie z planem po Cannon Lake. To właśnie przez 10nm Intel jakiś czas temu postanowił że będzie projektował mikroarchitekturę rdzeni i skalował do różnych procesów technologicznych gdyby w przyszłości problem z procesem technologicznym się powtórzył.

     

    Nie nie nie nie. Wszyscy sie mylicie.

     

    Nie ma czegos takiego jak idealny CPU. Nie ma czegos takiego jak idealna przelomowa architektura. Jakby bylo mozliwe zrobienie skoku IPC o 40% to zrobilby to juz teraz intel by zakopac AMD. Jakby AMD mialo cos takiego to by zrobilo to by pokoroic rynek intela.

    Przy projektowaniu mikroarchitektury zawsze idzie się na pewne kompromisy między zyskami w wydajności a ilością tranzystorów które trzeba dodać by to uzyskać czyli skomplikowaniem co wiąże się z nakładem pracy która pochłania dużo czasu. Czasami lepiej małymi krokami dopracowywać architekturę i wypuszczać ją co dwa lata niż dokonywać większych zmian i wypuszczać co 4-5 lat. Zresztą nie mając konkurencji Intel niskim nakładem maksymalizował zyski i doił miliardy.

     

     

    Dlaczego tak sie nie dzieje? Bo obecna technologia jest u kresu rozwoju. Dlatego dokladaja rdzeni. Trzeba by bylo jakiegos przelomowego wynalazku zeby zegary przebily 5-6 GHz na stock. A tego nie ma. Dlatego intel jak i amd dokladaj rdzeni. Moga tu cos poprawic, tam usprawnic. Ale czasy gdy kolejna generacja procesorow robila roznice juz minely. Teraz to grzanie kotletow, wciskanie kitu. Komercja pelna geba. Nawet specjalnie ograniczaja kompatybilnosc podstawek zeby na chipsetach zarabiac (intel przede wszystkim). Najbardziej u kresu jest proces technologiczny ktorego juz prawie w ogole nie da sie zmniejszyc. Dlatego rozwazania na temat wzrostu ipc sa ........ malo przelomowe. Lepiej miec te 2 rdzenie wiecej np. wzrost z 6 na 8 niz powiekszenie ipc o 10% w 6 rdzeniach. I to jest trend obecny.

    Zauważ że dokładają rdzeni głównie na platformy typu AM4 i LGA1xxx, czyli tam gdzie Intel nie mając konkurencji serwował max 4 rdzenie a że AMD wypuściło 8 rdzeni na AM4 to na ruch Intela nie trzeba było długo czekać. Dokładanie rdzeni to zwiększanie wydajności po najniższej linii oporu gdzie ograniczeniem jest tylko proces technologiczny. Myślisz że z Zen5 przyniesie 32 rdzenie na gniazdo pokroju AM4? Szczerze wątpię, o ile w Threadripper, EPYC i Xeonie tam ma to sens i rdzeni nigdy za wiele to moim zdaniem na AM4 i LGA1xxx nie zobaczysz więcej jak 12-16 rdzeni. IPC nie ma granicy i będzie wyższe w Sunny Cove jak i Zen5 czy Golden Cove. Intel opracowuje przełomową mikroarchitekturę na 2022 rok i na pewno AMD też pracuje nad czymś co zastąpi Zen5 także pożyjemy zobaczymy.

     

    AMD dogonilo intela bo:

    1. Zegar w zegar, rdzen w rdzen już nie ma różnicy 1:2 (FX?) a 0,8-1

    2. Cena jest niższa przy wyzszej ilosci rdzeni = wydajnosc ogolna na korzysc AMD w tej samej cenie

    3. Podstawki AMD ktore obsluguja procesory z ok 4-5 lat produkcji a nie jak u intela max 2 lat (a co najsmieszniejsze u intela jedna platforma daje opcjena jedna architekture i jej ...........refresh pfffffffffff)

    4. Chipsety AMD oferuja znacznie wiecej, gdyby nie AMD to RAID bylby dalej tylko na plytach intela od 400zl wzwyz.

     

    Sa dwa parametry ktore sie licza.

     

    PRICE / PERFORMANCE

    i

    PERFORMANCE / WAT

     

    AMD dogoniło Intela przez to że Intel nie był zagrożony, do tego problemy z 10nm i gdyby nie te problemy, Sunny Cove już dawno był by w sprzedaży a teraz była by przymiarka do Willow Cove, który ma przynieść kolejny etap przeprojektowania podsystemu pamięci cache.

    Potem już Golden Cove z kolejnym wzrostem IPC względem Sunny Cove.


  10. Problemem jest tylko przewidywanie skoków. To że instrukcje są zalezne to oznacza ze powinny być wykonywane jedna pop drugiej, ale w prockach Intela w rzeczywistosci wykonywane są ze 4 równocześnie, własnie dzieki przewidywaniu skoków. Jeśli ktoś zaprojektuje lepszą logike tego przewidywania to reszta jest już prosta, wystarczy poszerzyć inne interfejsy, dodac potoków wykonawczych. Niestety to nic nie da bo nikt nie umie zrobic lepszego przewidywania niż zaprojektowano w Skylake. Zenny sa pod tym względem wyraźnie słabsze i dlatego przegrywaja w grach.

    Poziom trudnosci z przewidywanie rosnie pewnie logarytmicznie albo jeszcze gorzej i stad ściana przy której IPC staneło.

    Sunny Cove ma poprawione algorytmy przewidywania skoków i rozgałęzień, to samo tyczy się Zen2 a niemal pewny jestem że Zen5 i Golden Cove przyniosą dalsze ulepszenia.


  11. Pojedynczy rdzeń obliczeniowy POWER8 ma bardzo szeroki blok Integer gdzie w pojedynczym wątku jest wydajniejszy od POWER7 o 60%. Power 9 ma pojedynczy wątek szybszy od POWER8 i również szeroki blok Integer.

    Choć z drugiej strony POWER9 bardziej przypomina moduł Bulldozer niż szeroki rdzeń POWER8.

     

    Wciąż nie jestem pewny czy połączone części POWER9, 4SMT w 8SMT mogą liczyć pojedynczy wątek

     

    IBM informuje że mogą to być układy 12 rdzeniowe 96(8 wątków na rdzeń) wątków lub 24 rdzeniowe 96 wątków(4 wątki na rdzeń).

    Bardzo dziwaczna konstrukcja przypominająca Buldożera pod pewnymi względami.

     

    Edit:

    Na forum Annandtec...

    Jest przeciek z testu Icelake(Sunny Cove) 4rdzenie/8wątków zrzutem z CPU-Z. L1-D 48KB 12-Way i L2 512KB.

    Z pierwszych szacunków wychodzi że IPC wyższe od Skylake o 5-10% a z uwzględnieniem AVX to 15-20%.

     

    CO prawda to tylko Geekbench ale układ działał podobno z zegarem 2.7GHz

     

    Single Core: 3799

    Multi Core: 12348

    Geekbench Icelake


  12. Nie rozumiem czemu jedno słowo "udostępnione" ewentualnie "dedykowane" miałoby skreślać "anty-HT?

     

    Po raz kolejny pytam jak wyobrażasz sobie technologie "anty-HT" jak nie moduł mogący pracowac jako dwa lub więcej rdzeni i w razie potrzeby pracujący jako jeden rdzeń?

    Podaj inny pomysł albo przyjmij ze to jest właśnie to i nie bredź wiecej :)

     

    p.s. "CMT is a simpler but similar design philosophy to SMT; both designs try to utilize execution units efficiently; in either method, when two threads compete for some execution pipelines, there is a loss in performance in one or more of the threads. Due to dedicated integer cores, the Bulldozer family modules performed roughly like a dual core dual thread processor during sections of code that were either wholly integer or a mix of integer and floating point; yet, due to the SMT use of the shared floating point pipelines, the module would perform similarly to a single core dual thread SMT processor (SMT2) for a pair of threads saturated with floating point instructions. (Both of these last two comparisons make the assumption that the comparison processor possesses and equally wide and capable execution core, integer-wise and floating-point wise, respectively.)"

    https://en.wikipedia.org/wiki/Bulldozer_(microarchitecture)#Desktop

     

    I nalezy pamiętac ze to jest zupełnie nowa architektura a nie ewolucja. Pewnie głównie dlatego głownie nie udana, stworzyć coś tak skomplikowanego od zera jest bardzo trudne. Pewnie w kolejnych krokach ta "uniwersalność" polegajaca na mozliwości przejścia z trybu dwurdzeniowego na jednordzeniowy by się poprawiała. Choć sam pomysł by wiele potoków łaczyło swoje siły okazał się już w załozeniu błedny bo tak jak limituje nas w czestotliwościach krzem (i malejacy proces przestaje pomagać) tak we wzroscie IPC blokuje nas przewidywanie rozgałezień i to z tej przyczyny nie mozna dodawac kolejnych potoków w procku, bo "przewidujemy" za słabo. (Intel wciąz zdecydowanie lepiej niż AMD i to widac w trudnym kodzie jak gry)

    Anty-HT miało działać na zasadzie iż dwa lub więcej niezależnych rdzeni obliczeniowych przetwarzały by strumień instrukcji w ramach pojedynczego wątku.

     

    Moduł Buldożer to właściwie rdzeń obliczeniowy z dwoma blokami Integer zależnymi od pojedynczego Front-endu i z pojedynczym blokiem FPU. Anty-HT nigdy nie miało działać na Module Buldożer ponieważ nie ma możliwości by dwa osobne bloki Integer z osobnym schedulerem(dyspozytorem) jak i osobnym L1 Danych mogły przetważac pojedynczy wątek. Moduł Buldożer zachowywał się jak dwa rdzenie gdy obliczał więcej niż jeden wątek ale pojedynczy wątek miał dostęp tylko do jednego bloku Integer i wówczas moduł zachowywał się jak pojedynczy rdzeń.

     

    SMT(HT) dotyczyło tylko bloku FPU z dwiema jednostkami 128bit które mogły przetwarzać 2x128bit dla wielowątkowości lub 1x256bit da pojedynczego wątku.

     

     

    Moim skromnym zdaniem z mojej perspektywy Moduł Buldożer nie był przełomem tylko innym podejściem do tworzenia rdzeni i sporym pójściem na łatwiznę. Nie chcę teraz wnikać czemu AMD nie mogło wówczas zaprojektować pojedynczego szerokiego bloku Integer a poszło na skruty tworząc wąski i zarazem prostszy blok Integer powielając go w obrębie rdzenia nazywając to dziwactwo modułem lub dwoma rdzeniami.

     

    O ile w wielowątkowości(2x(2ALU, 2AGU)=4ALU, 4AGU) można powiedzieć że to się sprawdzało to pojedynczy wątek ma dostęp tylko do pojedynczego bloku Integer czyli zaledwie do połowy zasobów ALU(2ALU, 2AGU) w module i to m.in z tego powodu pojedynczy wątek Buldożera ma bardzo niskie IPC.

     

    Pamiętam dyskusję czy 4-drożny dekoder x86 w Module Bulldozer to nie były w rzeczywistości dwa, 2-drożne dekodery x86.

     

    Rdzeń Jaguar miał 2-drożny dekoder x86, 2ALU, 2AGU i FPU 128bit ;)

     

    Szeroki pojedynczy blok Integer w rdzeniu takim jak np. Zen/Zen2(4ALU, 2AGU), Skylake(4ALU, 3AGU) lub Sunny Cove(4ALU, 4AGU) jest o wiele bardziej efektywny i gwarantuje wyższe IPC dla pojedynczego wątku ponieważ pojedynczy strumień instrukcji ma dostęp do wszystkich ALU czy AGU a gdy nie jest w stanie sporzytkować dużej ilości jednostek wykonawczych, SMT może obciążyć wolne zasoby drugim wątkiem.

     

    Moim zdaniem Anty-HT(Anty-SMT) to fikcja ponieważ ciężko jest nakłonić jednostki wykonawcze w obrębie pojedynczego rdzenia by wszystkie liczyły pojedynczy wątek-inżynierowie przy projektowaniu obwodów logiki rdzenia muszą się nieźle napocić by większość jednostek wykonawczych liczyła ST, więc jakim cudem osobne rdzenie miały by tego dokonać? :)

     

    Uważam że powrotu do Modułów typu Bulldozer nie będzie i zamiast dwóch bloków Integer np po 4ALU, 2AGU prędzej zobaczymy w przyszłości rdzenie z coraz to szerszym blokiem Integer np. 6ALU, 3AGU; 8ALU, 4AGU; 10ALU, 5AGU itd. z 4-8 drożnym SMT.


  13. Ja bym chciał żeby cały świat przeszedł na ARM. Jest to o tyle dobre że światy telefonów i komputerów na zawsze by się połączyły. Oczywiście wydajność lepsza , oprogramowanie tańsze...

    Ja wiem czy wydajność lepsza po drugie rdzenie ARM są tworzone pod kątem energooszczędności więc w wydajności do x86-64 to im brakuje. Z drugiej strony to znak dla Intela by opracować nowa mikroarchitektóre i tu także AMD musi się sprężyć.


  14. Mimo wszystko czasy gdy intel wystawiał G4560 2C 4T do walki z mid endem AMD już minęły. Intel nie jest już w stanie samą architekturą walczyć i dodaje rdzeni.

    Nie już tylko jeszcze(póki co). Trzeba poczekać na to co przyniesie Zen2 i Sunny Cove a potem Zen5, Willow Cove, Golden Cove i następne od AMD i Intela. Obecna sytuacja niczego nie przesądza tym bardziej w przyszłych latach.

     

    Poza tym, tak samo jak w świecie telefonów, komputery PC też mają inne zadania. Już nie obsługują porstego systemu i jednej aplikacji bo zasobów nie starcza. Tak jak na telefonach - tak na PC dzisiaj ludzie włączają skomplikowane procesy. Sam Windows 10 robi bardzo wiele w tle, dołożymy do tego antywirusa + firewalla, przeglądarkę internetową - coraz bardziej rozbudowaną, obsługującą coraz bardziej rozbudowane strony internetowe........... dzisiaj już nikogo nie widzi zamontowany na stronie skryptem emulator playstation2............. Do tego włączymy grę, program do obróbki video. I masz. 4 wątki to robi się mało. I żaden producent nie da takiego wzrostu zegara/wydajności na zegar by na małej ilości rdzeni zadowalająco to chodziło.

    Owszem wielozadaniowość mamy i na PC co nie zmienia faktu że pojedynczy strumień instrukcji(pojedynczych aplikacji) następujących kolejno po sobie jest głównym wąskim gardłem i tego nie zrekompensuje nawet 64 czy 128 rdzeni a prędzej czy później obecny bum na rdzenie minie i wątpię by kolejne generacje CPU zwłaszcza na platformę pokroju AM4 czy LGA1xxx miały 32, 64 czy 128 rdzeni.

     

    I doczepię się tego rozdzielenia światów GPU/CPU. Skoro da się obliczać dwie rzeczy na obu rodzajach układów logicznych? Ale wiadomo że x86 kiedyś odejdzie do lamusa.

     

    Samo x86 nie ma tu nic do rzeczy ponieważ pojedynczy strumień kodu w którym instrukcje następują kolejno jedna po drugiej dotyczy tak samo RISC jak i ARM, czyli każdego CPU. Po co łączyć skomplikowane rdzenie obliczeniowe CPU których siłą jest liczenie złożonych, powiązanych zależnościami rozkazów pojedynczego strumienia kodu z prostymi w GPU których siłą jest ilość w równoległym liczeniu niezależnych, bardzo prostych instrukcji skoro osobno układy wykonują swoje zadania bardzo dobrze a nie komplikuje to budowy. Połączenie rdzeni obliczeniowych CPU z GPU byłoby zawsze obarczone kompromisem tak jak APU w wydajności aniżeli osobne układy.


  15. No tak ale sam dobrze wiesz ze i zegar i wydajnozc z rdzenia juz sa mocno wyzylowane. Nawet intel idzie w rdzenie bo po prostu inaczej sie juz nie da. Tak samo jest na telefonach gdzie 8 rdzeni to standard. 4 rdzenie to maja biedafony. I da sie wyciagnac wydajnosc z 8 rdzeni na telefonie. Dlaczego nie na pc? To jest kierunek w ktorym ida komputery. Tak samo jest w kartach graficznych juz od dawna. Jednostki cuda albo procesory strumieniowe to nic innego jak wlasnie wielordzeniowosc. Dlatego crossfire i sli zdycha.

     

     

    Najlepsza opcja by bylo takie ANTY-HT, gdy cos wymaga wydajnosci jednowatkowej to kilka rdzeni pracuje jak jeden. Ale nie wiadomo czy jest to do wykonania programowo.

    O ile zegar nie da się podnosić w nieskończoność tym bardziej na krzemie to wzrost IPC wcale nie dobił do ściany i rdzenie będą pod tym kątem poprawiane i rozbudowywane. Po prostu na obecną chwilę łatwiej dodawać rdzenie niż je rozbudowywać a Intelowi jest to na rękę ponieważ ma czas na opracowanie następnych generacji jak i procesu technologicznego, rozbudowa jest nieunikniona i wątpię by kiedykolwiek to się zatrzymało ponieważ pojedynczy wątek jest i będzie w dalszym ciągu bardzo ważny. Rdzenie Intela czy to AMD kolejnych generacji mają wyższą wydajność ST jak i IPC także o to jestem spokojny. Nie można porównywać rdzeni z GPU do rdzeni CPU i jednocześnie myśląc że GPU jest lepsze od CPU. GPU wykonuje równolegle miliony czy nawet miliardy prostych mało ze sobą powiązanych obliczeń głównie graficznych natomiast Rdzeń CPU w przeważającej większości wykonuje pojedynczy strumień rozkazów o zmiennym skomplikowaniu kolejno następujących po sobie obliczeń i aby rozbić ten ciąg na równoległe jednostki wykonawcze których przybywa w rdzeniu implementuje się coraz to bardziej zawansowaną logikę w której zaszyte są skomplikowane algorytmy. To że my użytkownicy nie wiemy jak zwiększyć IPC nie znaczy że nie trwają prace nad nowymi mechanizmami które podnoszą znacznie IPC a zostaną zaimplementowane w przyszłych CPU. Kod którego instrukcje są mniej zależne od siebie można spokojnie podzielić na wiele wątków ale ten którego instrukcje są mocno zależne od siebie podzielenie nic nie da ponieważ synchronizacja między rdzeniami zajmie zbyt dużo cyki by to dało jakikolwiek efekt. Tylko te części kodu można rozbić które są możliwe do zrównoleglenia a pozostała nadal będzie na pojedynczym wątku. Ewentualnie można dodawać kolejne obliczenia na pozostałe rdzenie ale jest to tylko sensowne wtedy jeśli wynik tych obliczeń nie jest w większym stopniu zależny od wyniku głównego strumienia/ciągu instrukcji kodu np. w grach.

    Uważam że prędzej zobaczymy rdzenie z 4SMT-8SMT z dużą ilością jednostek wykonawczych niż proste rdzenie CPU których kilka liczy pojedynczy wątek.

     

     

    Co do 8 rdzeni w smartfonach to stosuje się je głównie przez wzgląd na wielozadaniowość a przedewszystkim małym nakładem prac dokładając tylko kolejne rdzenie można zwiększyć wydajność tym bardziej że często na smartfonie uruchamia się wiele aplikacji. Nie dopatrywał bym się w tym jakichś problemów w zwiększaniu IPC co historia już niejednokrotnie pokazała. Po prostu AMD poszło w ilość rdzeni ze względu na HPC i stacje robocze a duża ilość rdzeni na AM4 jest tego niejako skutkiem ubocznym i głównym sposobem na konkurowanie z Intelem.


  16. Ciekawe kiedy będą dostępne zdjęcia struktury rdzeni Zen2, porównanie do Zen będzie bardzo ciekawe :)

     

     

    PLOTKI z FORUM Anandtec… o Ryzen 3000(Zen2):

    "Słyszałem odgłosy właściciela ES, który dziś rano z forum mojego kraju powiedział, że Zen 2 może osiągnąć 5 GHz, ale nie cały rdzeń, ma też nowy mechanizm (turbo?), Który może zamknąć turbo 4-5 rdzeni 5 GHz. Również wszystkie rdzenie 4,3 Ghz + są bardzo łatwe (instrukcja oc?)

    Opóźnienie pamięci jest lepsze na nowej platformie (X570?), Ale gorsze na starej (X370, X470).

    Bądźcie czujni.

    https://translate.google.com/translate?hl=en&sl=auto&tl=en&u=https://www.chiphell.com/thread-1974190-1-2.html"


  17. DX12 sprawi że FXy będą latać!

     

    ashes_of_the_singularity_compare_dx12_1_4bjs.jpg

     

    Czym jest to spowodowane? Pewnie FPU nie wyrabia bo dużo floating calculations ta gra odpieprza a FXy mają tylko 1 FPU na każde dwa 2 ALU.

     

    Jestem ciekaw, czy Phenom II x6 poradzi sobie lepiej od FX 6300 w tym benchmarku bo Phenomy mają pełne 6 FPU a nie tylko 3, chociaż starszej generacji.

     

    Nie mam Windows 10 i nie planuję kupować Ashes of Singularity, więc nie jestem w stanie tego zweryfikować :/

    Moim zdaniem pisząc że Moduł ma 2ALU i 1FPU a Rdzeń np. Zen ma 1ALU i 1FPU jest wprowadzaniem zainteresowanych w błąd.

    Moduł(Rdzeń CMT(Cluster(Integer) Multi-Threading) Bulldozer/PileDriver itp. ma 2 BLOKI INTEGER a w każdym z tych dwóch bloków obliczeniowych są JEDNOSTKI WYKONAWCZE po 2ALU i 2AGU co daje 4ALU i 4AGU na "Moduł" inaczej pisząc Moduł to odpowiednik Intelowskiego Rdzenia z SMT(Hyper Threading).

     

    Odnośnie mylnej opinii o małej ilości FPU w Bulldozer proszę porównać stosunek ilości i szerokości jednostek wykonawczych ALU i FPU w poszczególnych mikroarchitekturach rdzeni/modułów:

     

    Rdzeń/Moduł Bulldozer: Front-End z 4 Dekoderami x86, dwa bloki Integer po 2ALU i 2AGU(sumarycznie 4ALU, 4AGU na Moduł), blok FPU 2xFMAC 128bit(przetwarzanie 256 bitowych operandów w kilku cyklach zegarowych)

     

    Rdzeń Jaguar: Front-End z 2 Dekoderami x86, blok Integer po 2ALU i 2AGU, blok FPU 128bit

     

    Rdzeń K8(Athlon 64): Front-End z 3 Dekoderami x86, blok Integer 3ALU/AGU, blok FPU 64bit

     

    Rdzeń h10(K10 Phenom): Front-End z 3 Dekoderami x86, blok Integer 3ALU/AGU, blok FPU 128bit

     

    Rdzeń h17(Zen): Front-End z 4 Dekoderami x86, blok Integer 4ALU i 2AGU, blok FPU 2xFMAC 128bit

     

    Rdzeń Conroe(Core 2)-IvyBridge(Core i): Front-End z 4 Dekoderami x86, blok Integer/FPU 3ALU/FPU i 2AGU (FPU 128bit-256bit(SB/IB AVX))

     

    Rdzeń Haswell/Skylake: Front-End z 4 Dekoderami x86, blok Integer/FPU 4ALU/3FPU i 3AGU (FPU 2xFMAC 256bit(AVX2+FMA), Skylake-X 2xFMAC 256bit + FMAC 512bit(AVX512 + FMA))

     

     

    Moduł np. Bulldozer ma pojedynczą logikę sterującą czyli Front-End(w skrócie: cache L1-Instrukcji, przewidywanie skoków i odgałęzień w kodzie, 4-ro drożny dekoder x86) jak w tradycyjnym rdzeniu obliczeniowym tyle że AMD poszło na łatwiznę i zamiast dać pojedynczy szeroki blok Integer z co najmniej 3ALU i 2AGU który miałby wyższą wydajność w pojedynczym wątku zaprojektowali wąski(ala rdzeń Jaguar)/prosty z 2ALU i 2AGU dublując go w obrębie Rdzenia nazywając marketingowo dwoma rdzeniami lub Modułem(CMT) czego negatywną konsekwencją jest to że pojedynczy wątek ma dostęp tylko do połowy jednostek wykonawczych ALU w module.

     

    Jednostek FPU w Module wcale nie jest za mało ponieważ jak już wyżej napisałem Moduł pod względem ilości jednostek wykonawczych jest zbliżony do rdzenia Zen(poza 2x większą ilością AGU(4) w Bulldozer) lub dwa rdzenie Jaguar. Po prostu FPU w module Bulldozer i jego pochodnych jest kiepski bo AVX 256bit czy AVX 2x 128bit potrzebuje więcej niż jednego cyklu zegarowego(bolączka także Zen) podczas gdy w rdzeniach Intelowskich 2x 256bit lub 2x 256bit + 512bit(AVX512) wystarczy jeden cykl zegarowy ;) Do tego dodać marny pojedynczy blok Integer + kiepski podsystem cache L1, L2, L3 i słaby Front-End to suma summarum mamy w grach to co mamy.

    Co z tego że dwa bloki Integer dają więcej w wielowątkowości niż SMT Intela skoro to często właśnie rdzeń Intela z wyłączonym SMT jest szybszy od Modułu z CMT a jednostek wykonawczych ALU mają po tyle samo(4ALU na Moduł) natomiast jednostek od generowania adresów(AGU) Bulldozer ma o jedną więcej(Moduł 4AGU vs 3AGU w Rdzeniu Haswell/Skylake).

     

    Ile by się nie spierać o to, dla mnie Moduł jest Rdzeniem CMT z dwoma wątkami, tyle że zamiast jak w rdzeniach Zen czy rdzeniach Skylake gdzie zarówno pojedynczy wątek jak i dwa wątki mają niemal w 100% dostęp do wszystkich zasobów rdzenia w tym jednostek wykonawczych i tylko niewielka część logiki(SMT) jest dedykowana poszczególnym wątkom to pojedynczy wątek FX-a ma dostęp tylko do części Rdzenia/Modułu CMT a reszta jego logiki w tym 2ALU i 2AGU leżą odłogiem.

     

    Jak dla mnie FX(Bulldozer) to procesor 1C/2T, 2C/4T, 3C/6T i 4C/8T a miał być jeszcze układ(Komodo) składający się z 5 Modółów(5C/10T) natomiast Opteron to 8C/16T i o ile ten procesor byłby ciekawy w 2008-2009 roku walcząc z Intelowską mikroarchitekturą Nehalem(ewentualnie z Westmere) tak w dniu premiery to tylko ciekawostka na tle SandyBridge pomijając cenę i biorąc tylko aspekt techniczny.

     

    PS

    Postaram się dzisiaj wrzucić wyniki z moich testów: Moduł Piledriver 1T/2T(stałe 4GHz) vs Rdzeń Haswell 1T/2T(OC-stałe 4GHz) :)

     

    EDIT:

    Test IPC(Instructions Per Cycle) Moduł Piledriver(4GHz) vs Rdzeń Haswell(OC 4GHz):

     

    AIDA64 Engineer 5.95.4500

    AIDA64 Cache & Memory Benchmark:

    1Moduł Piledriver/2T 1Rdzeń Haswell/2T

    L1 Cache 16KB 32KB

    Read: 124.47 GB/s 249.95 GB/s

    Write: 23 GB/s 124.99 GB/s

    Copy: 47.75 GB/s 249.96 GB/s

    Latency: 1 ns 1 ns

     

    L2 Cache 2MB 256KB

    Read: 81.67 GB/s 122.96 GB/s

    Write: 21.65 GB/s 41 GB/s

    Copy: 39.9 GB/s 62.68 GB/s

    Latency: 12.5 ns 3.1 ns

     

    L3 Cache 8MB 15MB

    Read: 28.52 GB/s 36.93 GB/s

    Write: 10.4 GB/s 26.2 GB/s

    Copy: 17.46 GB/s 31 GB/s

    Latency: 37.5 ns 14.9 ns

     

     

    AIDA 64 GPGPU Benchmark:

    1Moduł Piledriver/2T 1Rdzeń Haswell/2T

    Single-Precision FLOPS: 54.51 GFLOPS 127.9 GFLOPS

    Duble-Precision FLOPS: 27.25 GFLOPS 63.94 GFLOPS

    24-bit Integer IOPS: 15.98 GIOPS 31.98 GIOPS

    32-bit Integer IOPS: 15.99 GIOPS 31.98 GIOPS

    64-bit Integer IOPS: 3.97 GIOPS 7.99 GIOPS

    AES-256: 4258 MB/s 4538 MB/s

    SHA-1 Hash: 1014 MB/s 1020 MB/s

    Single-Precision Julia: 16.70 FPS 39.53 FPS

    Duble-Precision Mandel: 8.53 FPS 21.18 FPS

     

    AIDA64 Engineer Testy:

    1Moduł Piledriver 1T/2T 1Rdzeń Haswell 1T/2T

    CPU Queen: 1T–5558p| CMT-10100p 1T–9742p| SMT-14336p

    CPU PhotoWorxx: 1T–3685 MP/s| CMT-4674 MP/s 1T-9790 MP/s| SMT-10588 MP/s

    CPU Zlib: 1T-49.7 MB/s| CMT-85.5 MB/s 1T-69.2 MB/s| SMT-87.7 MB/s

    CPU AES: 1T-3707 MB/s| CMT-4259 MB/s 1T-4400 MB/s| SMT-4541 MB/s

    CPU Hash: 1T-663 MB/s| CMT-1014 MB/s 1T-1072 MB/s| SMT-1022 MB/s

    FPU VP8: 1T-1400p| SMT-2057p 1T-2206p| SMT-3636p

    FPU Julia: 1T-2786p| SMT-3334p 1T-7543p| SMT-7895p

    FPU Mandel: 1T-1386p| SMT-1704p 1T-4188p| SMT-4231p

    FPU SinJulia: 1T-444p| SMT-692p 1T-860p| SMT-1269p

    FP32 Ray-Trace: 1T-403 KRay/s| SMT-644 KRay/s 1T-1153 KRay/s| SMT-1372 KRay/s

    FP64 Ray-Trace: 1T-250 Kray/s| SMT-350 Kray/s 1T-626 Kray/s| SMT-770 Kray/s

     

    1.Gdyby ktoś niewiedział to Moduł ma CMT dla bloków Integer a SMT dla bloku FPU.

    2.SMT na rdzeniach Intela w niektórych zastosowaniach powoduje minimalne spadki wydajności.

     

     

    CINEBENCH R15.0:

     

    1Moduł Piledriver

    1T – 93p| SMT – 157p

     

    1Rdzeń Haswell

    1T - 160p| SMT – 201p

     

    FlopsCPU v1.4

    1Moduł Piledriver 1T/2T 1Rdzeń Haswell 1T/2T

    x86: 1T-35.3 MFLOPS| CMT-62.1 MFLOPS 1T-62.3 MFLOPS| SMT-67.4 MFLOPS

    x87: 1T-3.26 GFLOPS| SMT-3.5 GFLOPS 1T-4.19 GFLOPS| SMT-4.69 GFLOPS

    SSE2: 1T-6.58 GFLOPS| SMT-8.39 GFLOPS 1T-9.74 GFLOPS| SMT-11.0 GFLOPS

    AVX: 1T-8.19 GFLOPS| SMT-8.90 GFLOPS 1T-18.7 GFLOPS| SMT-20.6 GFLOPS

    AVX2(FMA): - | - 1T-28.7 GFLOPS| SMT-31.5 GFLOPS

     

    Fritz Chess Benchmark(test opiera się o logikę Front-End Rdzeni/Modułów – Przewidywanie soków i odgałęzień w kdzie):

     

    Moduł Piledriver 1T/2T

    Szybość względem Pentiuma III 1GHz : 1T – 4.77| CMT – 7.40

    tys. Pozycji na sekundę: 1T – 2289| CMT – 3553

     

    Rdzeń Haswell 1T/2T

    Szybość względem Pentiuma III 1GHz : 1T – 6.62| SMT – 8.26

    tys. Pozycji na sekundę: 1T – 3176| SMT - 3967


  18. No ale jak by nie było... Intel i tak jest lepszy w CPU.

     

    Nie ma co psów wieszać.

    Intel:

    Bardziej zaawansowany Front-end i bardziej zawansowany zunifikowany scheduler a do tego FPU AVX2+FMA(2x256bit(512)) lub AVX512(2x256bit + 1x512bit(1024)) połączone z ALU 256bit(AVX2) i magistrala pierścieniowa łącząca cache L3 + rdzenie itd

     

    Dużo by wymieniać :)


  19. natomiast odejście Radży do Intela to nie był wynik ograniczenia srodków na rtg. bo AMD w ostatnim kwartale (czy dwóch) podnosiło wydatki na R&D. i z racji na koparkowy boom na bieżące sprzedawanie wszystkich nonlegacy poza 540 i 550 460/560d 560 znowu podniosą inwestycje. trudno jest niektórym w to uwierzyć ale Raja jest szanowanym inżynierem i duże portale branżowe pozytywnie oceniały jego prace. mówi się że ma on pełnić rolę raczej opiekuna pracy nad wdrożeniem Vegi (i prawdopodobnie kolejnych generacji) do procesorów Intela. jest to zrozumiałe bo a) Intel ma raczej słabo rozwinięty dział graficzny b) Radża dobrze zna architekturę i nie startuje od 0 więc jego praca jest efektywniejsza. wszyscy na tym skorzystają.

    Źle się wyraziłem bo chodziło mi o to że w czasie projektowania Vegi dział RTG miał mniejszy budżet którego większa część poszła do działu CPU na mikroarchitekture Zen.

     

    Zobaczymy jakie wyjdą następne generacje układów graficznych ze zwiększonymi środkami finansowymi dla RTG i nowymi kierującymi inżynierami.

     

    Jeżeli zaś o dział graficzny Intela chodzi to kluczowe patenty na procesory graficzne maja AMD(dawne ATI) i NVidia w tym lata doswiadczenia. Każdy kto teraz będzie chciał się w to bawić musi płacić słona kasę AMD i NVidii za owe patenty. Integra Intela to emulowanie logiki bloków obliczeniowych odpowiedzialnych za generowanie grafiki przez co musi być wspomagana przez CPU(Coś jak sprzętowy kodek dźwiękowy na płycie głównej który liczony jest na CPU) przez co działa to jak działa i nigdy nie dorówna natywnym jednostka obliczeniowym z GPU.

     

    Więc Intel albo dogadał się z AMD(co do patentów) i wypozyczyl Raje Koduriego by ten zaprojektowal nowe GPU bądź co bądź lepsze od dotychczasowej integry albo zaimplementował rozwiązania z Radeonów.

    Tylko jest jedno ale... AMD w Radeonach wykorzystuje patenty z GeForcow a GeForce z Radeonów więc Intel musiałby także dogadać się z NVidia w co szczerze wątpię bo same opłaty za patenty zabiły by sensowność takiego rozwiazania.

     

    Podejzewam że Raja Koduri jako doświadczony inzynier ma po prostu z tego czym dysponuje Intel sklecić coś lepszego.

     

    Ewentualnie Intel kupił projekt GPU od AMD wzorem ADRENO(Radeon) z SnapDragona.


  20. Masz sporo racji w tym co piszesz, zwłaszcza odnośnie Frontiera, ale moim zdaniem prawda jest taka, że producenci gier siedzą przy dx11 w dużej mierze dlatego że NV w nim nie błyszczy, dalsze ważne powody to przyzwyczajenie, lenistwo i brak presji ze strony graczy, którzy chyba kiedyś jakoś więcej wymagali. Wystarczy spojrzeć jak brutalnie historia oceniła GF z serii FX, za to że nie radziły sobie z dx9 mimo że w dx8 błyszczała i gier w starym API było w tamtym czasie od groma. A graficznych przewag dx9 vs dx8 w takim Far Cry trzeba było szukać żeby się upewnić, czy na pewno dx9 działa :) Ale to wystarczyło żeby NV dostała wtedy nokaut z fatality. Ja skupiam się na kartach dla graczy i w mojej ocenie głównym powodem dla którego Vegi w recenzjach uchodzą za fail jest to jak AMD spartaczyło stockowe ustawienia (pobór prądu) i że nie było przyzwoitych niereferentów na start. Do tego niska podaż i ceny z kosmosu dopełniają reszty. Ale to są tematy towarzyszące, zaś samo tylko GPU ja osobiście oceniam za udane, cała otoczka to przyznaję porażka. AMD ostatnio zawsze ma problem żeby dopiąć wszystko na ostatni guzki, wykonać ten końcowy szlif który często jest decydujący, zawsze są spóźnieni i muszą wypuszczać sprzęt, który ma braki od strony softu (biosy dla ryzenów, fatalne ustawienie zegarów i napięć w Vedze itp.). Ja wybrałem świadomie AMD i jestem zadowolony, bo dla mnie to nie problem poprawić to co producent spartaczył, bo przecież i tak zawsze przy każdym nowym sprzęcie pc z przyjemnością grzebię i zmieniam fabryczną specyfikację pod siebie.

    GeForce FX miał pełno wąskich gardeł m.in 16-sto bitowe przetwarzanie kodu zamiast co najmniej 24-bitowe(R3xx(Radeon 9xxx)) co powodowało przy DX9 spadek wydajności ponieważ SM2.0 wymagał minimum 24-bitowej precyzji.

    Dotego sam GF FX miał mniej zasobów niż Radeon 9xxx więc cudów być nie mogło choć nie wiem jaki cel przyświecał NVidii przy projektowaniu FX-a 5xxx(może główny inżynier udał się na dłuższy urlop ;) )

     

    ponoć amd wycofało sie z prac nad primitive shaders. Vega najgorszą prermierą w historii czerwonych

    Widocznie zyski były nieadekwatne do wysiłku programistów albo schrzanili primitive shaders na etapie projektowania nobo w końcu dział RTG ma obniżony budżet czego skutki widzimy(Vega) z czym może wiązać się odejście głównego inżyniera działu graficznego AMD.


  21. Dlatego nie lubię procków Intela. Co z tego, że są wydajniejsze jak jakościowo (i pod względem zaawansowania technologi) odstają od konkurencji. Patrząc na procki Intela, mam wrażenie, że duża część ich ceny to tylko dopłata za markę.

     

    Pod jakim względem jakościowym/zaawansowania procesory Intela są gorsze od konkurencji(AMD)? Proces produkcji(Intela pozwala na wyższe takty)? Kontroler DDR4(AMD zaprojektowany w zewnętrznej firmie(gorszy))? Magistrala pierścieniowa/Siatkowa vs Infinity Fabric(komunikacja między 2 cztero-rdzeniowymi CCX'ami za pośrednictwem powolnego kontrolera RAM)? Front-End? Zunifikowany scheduler(Intel) dla wszystkich jednostek wykonawczych(lepsze Out of Order execution i niższe opuźnienia)? Zmienne przecinki(FPU) AVX2+FMA3 - Intel 2xFMAC 256bit(2 porty po 4x64bit - SP 32 FLOPs/c /DP 16FLOPs/c)/AVX512 3xFMAC(2 porty 256bit i trzeci 512bit - SP 64 FLOPs/c /DP 32 FLOPs/c) vs AMD 2xFMAC 128bit(4 porty po 64bit - SP 16 FLOPs/c /DP 8 FLOPs/c)? Intel - lepsze i wydajniejsze wektory ALU(operacje arytmetyczno-logiczne) AVX2 256bit? 3AGU(jednostki adresujące)(4 porty Intel) vs 2AGU(AMD)? 2x szersze magistrale między L1 a L2(Intel)? Konkrety w którym miejscu rdzenie Intela są mniej zaawansowane ewentualnie mają gorszą jakość?

     

    Wiadomo że nie ma rdzenia idealnego bo Rdzeń Intela(przy danej architekturze) jest lepszy w jednych obliczeniach i obciążeniach a architektura AMD w innych. Zawsze są to jakieś kompromisy ewentualnie balans między jednymi zastosowaniami a drugimi np.: Skylake vs Skylake-X.

     

    Co do tego całego szumu wokół zabezpieczeń procesorów Intela/AMD/ARM to wiem tylko jedno, luki w zabezpieczeniach były, są i będą czy się nam to podoba czy nie bo możni tego świata muszą się zabezpieczyć. Luki są wszędzie m.in w Wi-Fi, USB, Bluetooth a tak jest z niemal całą elektroniką. Całą ta akcja ma nas uśpić byśmy myśleli że ktoś nad tym czuwa a nowa generacja będzie z jeszcze bardziej zawansowanymi lukami o których dowiemy się może za kolejne naście lub kilkadziesiąt lat ;)

     

    PS:

    Te info dla mnie to żadne zaskoczenie bo już od dawna mam świadomość że w elektronice/procesorach jest dodatkowa logika lub moduły odpowiedzialne za tego typu funkcje. Pytanie jaki procent powierzchni rdzenia zajmuje owa logika i jaki ma wpływ na wydajność, i jaki teoretycznie był by zysk gdyby tej logiki niebyło.

×
×
  • Dodaj nową pozycję...