Skocz do zawartości

Temat został przeniesiony do archiwum

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

krzywymax

Intel Larrabee GPU

Rekomendowane odpowiedzi

No zapowiada się ładnie :)

a co tam takiego ladnego widzisz oprocz radosnej tworczosci jakiegos Hiroshito? bo ja oprocz pentiuma z papka vectorowo-skalarna sasmazana jakimis jednostkami teskturujacymi i przyprawionego kupa kaszy, tam nie widze. a juz na pewno supeuber gpu. no chyba, ze cos "magicznego" kryje sie pod tymi "krzaczkami", ale osobiscie stawiam na cos w stylu "sajgonki" ;)

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Ten to wie jak zgasic czlowieka, szkoda ze nie opublikowali calej specyfikaci technicznej, razem z cala dokumentacja. xD

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Kolejny news, tym razem z przechwyconym foto z prezentacji Intela, w ktorym pokazal sie zrzut krysztalu, wg spekulantow jest tam 32 rdzenie i szyna dla pamieci cos miedzy 256 a 384bit. Pytanie na jakiej pracuja czestotliwosci pozostanie na przyszlosc, choc opcje zamykaja sie miedzy 1 a 2 GHz.

http://www.pcgameshardware.com/aid,683947/...-by-Intel/News/

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
Pytanie na jakiej pracuja czestotliwosci pozostanie na przyszlosc, choc opcje zamykaja sie miedzy 1 a 2 GHz.

stawiałbym raczej na 2GHz z racji chęci osiągnięcia conajmniej 2TFlopów.

 

32rdzenie

2GHz

2048GFlops SP

512GFlops DP

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
stawiałbym raczej na 2GHz z racji chęci osiągnięcia conajmniej 2TFlopów.

 

32rdzenie

2GHz

2048GFlops SP

512GFlops DP

W zaleznosci jakie beda potrzeby 32 rdzenie z vector 16-wide float lub 8-wide double float, podobnie int32 i int64. Jak w tabelce

090330abrash1_f2.gif

 

Czyli

e.g. SIMD scalars

32 core x 16 scalar stream unit x 2 stream op. x 2GHz = 2.048 TFLOPs

Skoro rdzenie LRB sa zgodne z rozszerzeniem x86 w arch. in-order wyposazone w wielowatkowosc(4 watki na rdzen) SIMD SP:DP z reguly jest 2:1.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
W zaleznosci jakie beda potrzeby 32 rdzenie z vector 16-wide float lub 8-wide double float, podobnie int32 i int64. Jak w tabelce

090330abrash1_f2.gif

 

Powyższa tabelka dotyczy jedynie szerokości instrukcji jakie może przyjąc silnik VPU oraz jego rejestrów. Nie odnosi się bezpośrednio do wydajności silnika wektorowego.

Rejestr VPU układu Larrabee może operowac na 16 instrukcjach typu float32 , int32 lub na 8 instrukcjach typu float64 , int64 równolegle jednakże w przypadku instrukcji 32bit, instrukcje te mogą byc również typu multiply-add co podwaja wydajnosc (flops) silnika wektorowego z racji że ALU są jednostkami typu MADD(mogą wykonac operacje na trzech operandach równolegle). Na instrukcjach double precision 64bit tego się nie da zrobic z uwagi na fakt że poszczególne jednostki wektorowe silnika składają się z szesnastu 32bitowych jednostek. Dwie jednostki 32bit typu MADD nie mogą wykonac operacji 64bit typu MADD w jedym cyklu zegara gdyż operacje 64bit na 3 operandach nie można łaczyc w przypadku jednostek 32bit. Zatem aby wykonac instrukcje double precision mul/add najpierw trzeba za pomocą dwóch ALU wykonac operacje mul a potem za pomocą nastepnych dwóch operacje add.

 

Czyli

e.g. SIMD scalars

32 core x 16 scalar stream unit x 2 stream op. x 2GHz = 2.048 TFLOPs

Skoro rdzenie LRB sa zgodne z rozszerzeniem x86 w arch. in-order wyposazone w wielowatkowosc(4 watki na rdzen) SIMD SP:DP z reguly jest 2:1.

Silnik wektorowy LRB to nie to samo co jednostka FPU w procesorze. W procesorach np. Core2 możliwe jest osiągnięcie wspólczynnika 2:1 z racji tego że FPU jest 128bitowe i posiada 2 jednostki ALU: 128bit ADD oraz 128bit MUL. Zatem silnik ten może przeliczyc 2 instrukcje 64bit add/mul oraz 4 instrukcje 32bit add/mul. FPU łączy 2 jednostki ALU aby stworzyc jednostkę 128 typu MADD. Dzieki temu degradacja współczynnika SP:DP jest jedynie 2:1.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
Silnik wektorowy LRB to nie to samo co jednostka FPU w procesorze. W procesorach np. Core2 możliwe jest osiągnięcie wspólczynnika 2:1 z racji tego że FPU jest 128bitowe i posiada 2 jednostki ALU: 128bit ADD oraz 128bit MUL. Zatem silnik ten może przeliczyc 2 instrukcje 64bit add/mul oraz 4 instrukcje 32bit add/mul. FPU łączy 2 jednostki ALU aby stworzyc jednostkę 128 typu MADD. Dzieki temu degradacja współczynnika SP:DP jest jedynie 2:1.

LRBni plus x86, kazdy z rdzeni posiada prawdopodobnie jednostke wektorowa SIMD16 dual issue, czyli pracujace jako 2 programowalne maszyny wektorowe 2x256bit z oddzielnymi vec. registers+mask register, jako rozszerzenie P54C, a ten posiada skalarne SIMD dual-issue. W SIMD typu CPU potok dla SP i DP jest taki sam, w GT200 rozny. Podobne rozwiazanie ma NVIDIA dla SPU, zbudowane z 2 maszyn FMADD(SP) i FMUL(SFU) programowalne w oddzielnych cyklach. AMD RV7xx jest single-issue VLIW. Intel w zasadzie nie publikowal swiezych danych odnosnie wydajnosci FLOPowej poza starym ponad 2 letnim slajdem, jedynie ze slajdu HP wycieklo pare danych, ze Larrabee bedzie swietne do HPC i cluster farms, ale brak danych jak dziala na zywym kodzie. NVIDIA ma hybryde GPU, ktore do HPC srednio sie nadaje, bo ma narazie marniutką DP FP, a to jest kluczowe. Larrabee wyglada na cGPU, czyli maszyne liczaca z mozliwosciami renderowania, ale z naciskiem na to 1, z kilkoma rozwiazaniami wzietymi z GPU/VPU i SPE.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
LRBni plus x86, kazdy z rdzeni posiada prawdopodobnie jednostke wektorowa SIMD16 dual issue, czyli pracujace jako 2 programowalne maszyny wektorowe 2x256bit z oddzielnymi vec. registers+mask register, jako rozszerzenie P54C, a ten posiada skalarne SIMD dual-issue. W SIMD typu CPU potok dla SP i DP jest taki sam, w GT200 rozny. Podobne rozwiazanie ma NVIDIA dla SPU, zbudowane z 2 maszyn FMADD(SP) i FMUL(SFU) programowalne w oddzielnych cyklach.

 

Jednostka wektorowa przyjmuje instrukcje 16wide 512bit zatem jest single issue(jedna instrukcja) gdyż operuje na 512bit rejestrach dla każdego z trzech operandów instrukcji , dwóch input i jednego output. Silnik VPU to szesnaście jednostek 32bit MADD/INT/FLOAT obliczających 512bit instrukcje LRBni w trybie AOS lub SOA.

Rdzeń P54C jest dual issue jedynie na poziomie dekodera instrukcji gdyż posiada 2 dekodery instrukcji x86, LRBni. P45C ma 2 porty, jeden skierowany właśnie do 512bit VPU a drugi do skalarnych jednostek 64bit int. W dodatku dzięki technologi STM możliwe jest dekodowanie instrukcji pochodzących z 4 różnych wątków.

W układzie GT200 do obliczania instrukcji 64bit DP Nvidia używa odrębnych jednostek ALU. Nie może użyc jednostek 32bit SP z racji tego, że układ wykonuje obliczenia na skalarnych instrukcjach w przeciwieństwie do wektorowych silników jakie ma Intel czy ATI.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach
Intel Has a Luxury of Releasing Larrabee in Its Own Time – Larrabee Engineer.

Intel’s Larrabee Set to “Come Back with a Vengeance”

 

http://www.xbitlabs.com/news/video/display...e_Engineer.html

dopóki będą chcieli do kart graficznych wepchnąć x86 to będzie to nie wypałem, takie moje zdanie w tej kwestii, bo ile można trzymać przy życia taki antyk przy życiu ?

 

A patrząc na rozwój obecny komputerów to większe szanse są na to że architektura GPU zagości w CPU, pewne podwaliny może zrobić tutaj już AMD w swoim projekcie Fusion. Ale czy zrobi to się wszystko okaże.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

Troche ozywie temat, bo Intel zdecydowal sie przedstawic LRB w konwencji Xeon Phi.

 

Zdjecie karty i najwazniejsze cechy wskazuja, ze bedzie porownywalne z Tesla K20

Wersja typowa HPC i kompaktowa FormFactor

566706d1343592591-neue-bilder-von-xeonphi-pcb-denseformfactor-und-pci-e-knc-pcb-pci-e.jpg566707d1343592592-neue-bilder-von-xeonphi-pcb-denseformfactor-und-pci-e-knc-pcb-dff.jpg

Knights Corner (KNC): first MIC commercial product

– > 50 Cores x86, 22nm technology, running Linux

– Mezzanine card (PCIe card, Dense Form Factor in 2013)

– Board management controller on SMbus

– Development by Intel, support by Intel Europe

• Important features for DEEP:

– High performance

– Sufficient memory bandwidth

– Possibility to directly attach a network

– Ability to run general purpose codes (MPI-library)

– Autonomous operation (with EXTOLL)

– Energy efficient: 5 GFlop/W

– Direct water cooling possible

– Extensible software stack: network drivers

 

Prezentacja z projektu DEEP, w ktorym pojawia sie te karty w duzej ilosci. http://www.deep-project.eu/SharedDocs/Downloads/DEEP-PROJECT/EN/Presentations/ISC12-Presentation-Lippert.pdf?__blob=publicationFile

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

http://vr-zone.com/articles/intel-xeon-phi-b0-stepping--the-knight-in-shining-armor-/16871.html

 

Knights Corner B0 comes in several flavors, with 57C, 60C and 61 cores being the most common configurations. Yes, the company unlocked an odd number of cores, compared to even number in Larrabee and Aubrey Isle. The change in number of processing cores changed L1 and L2 cache, and we now have 1.8-1.9MB of L1 and 28-30.5MB of L2 cache. Onboard memory now greatly varies between the parts, with available flavors being 3GB, 6GB and 8GB of GDDR5 memory.

Udostępnij tę odpowiedź


Odnośnik do odpowiedzi
Udostępnij na innych stronach

  • Ostatnio przeglądający   0 użytkowników

    Brak zarejestrowanych użytkowników przeglądających tę stronę.

  • Tematy

  • Odpowiedzi

    • Jak ARGB to https://proline.pl/koszyk/6c75512a   Jak bez ARGB to zmieniłbym jedynie budę na ZENPC Z3 Mesh 4x120 mm - ProLine
    • po części masz rację, qd oledy mają w teorii mniej bandingu i rzadko mają tinting, więc pod tym względem są na pewno lepsze niż woledy, ale wystarczy wejść na forum avs forums i zobaczyć, że banding w qd oledach jednak występuje i 2 generacja tych paneli do TV zaliczyła mały krok wstecz pod tym względem w porównaniu do pierwszej generacji poza tym Samsung ma gorszą quality control niż LG Sony w tym roku to już w ógole ma dość oledów i w topce stawia na mini ledy 😄
    • Najnowsze sterowniki chipsetu AMD to aktualnie V6.03.19.217 i pobierasz je stąd ROG CROSSHAIR X670E HERO | Gaming motherboards|ROG - Republic of Gamers|ROG Global (asus.com) https://drive.google.com/file/d/15Zd-70Im0NCVtWUR04aqrGrzJwsEs-Cm/view?usp=sharing Najnowsze sterowniki do kart sieciowych Realtek pod Windows 11 64 bit ze wsparciem dla Power Saving Mode (nie pobieram tych bez wsparcia tej funkcji którą i tak wyłączam) Realtek BIOS do MOBO ściągasz maksymalnie najnowszą wersję dla swojego modelu danego producenta. Najnowsze sterowniki do dźwiękówki znajdziesz tu Realtek Sterowniki graficzne najnowsze pobierasz w wersji Game Ready ze strony NVIDII jak karta NVIDII.      
    • Nie, ale poprzeglądaj reddit i na pewno na taki temat trafisz jeśli grasz w większości w gry online bierz 27 cali, jak zalezy ci na 4k, robiącym lepsze wrażenie hdr i grasz w większosci w gry single player to kupuj C3 42  - zrobi większe wrażenie i zapewni większa immersję, na C3 nawet ultrawide dobrze wygląda (custom rozdziałka), zastanów się tylko czy masz miejsce i dobrą odległość od ekranu jak myślisz o 42 calach na biurko, bo moim zdaniem minimalna odległość od jego ekranu do komfortowej pracy to 80cm  ja tez mam za słabe gpu do 4k obecnie (4080), ale niedługo wyjdą nowe karty i 4k (dlss) i 120fps będą bardziej realne jeśli chodzi o rozdzielczość to jest róznica w ostrości miedzy 4k (dlss q), a 3440x1440 (dlss q) w grach (mam oba ekrany w domu)
    • Myślałem, że będzie gorzej. Okazuje się, że w tych wymagających tytułach zapewnia cinematic experience 30+ fps, a w niektórych tytułach 60+ fps.
  • Aktywni użytkownicy

×
×
  • Dodaj nową pozycję...