Intel Larrabee GPU

SuLac0 · 1 Kwietnia 2009

No zapowiada się ładnie

a co tam takiego ladnego widzisz oprocz radosnej tworczosci jakiegos Hiroshito? bo ja oprocz pentiuma z papka vectorowo-skalarna sasmazana jakimis jednostkami teskturujacymi i przyprawionego kupa kaszy, tam nie widze. a juz na pewno supeuber gpu. no chyba, ze cos "magicznego" kryje sie pod tymi "krzaczkami", ale osobiscie stawiam na cos w stylu "sajgonki"

skyline rider · 1 Kwietnia 2009

Ten to wie jak zgasic czlowieka, szkoda ze nie opublikowali calej specyfikaci technicznej, razem z cala dokumentacja. xD

LeeLoo_T · 12 Maja 2009

Kolejny news, tym razem z przechwyconym foto z prezentacji Intela, w ktorym pokazal sie zrzut krysztalu, wg spekulantow jest tam 32 rdzenie i szyna dla pamieci cos miedzy 256 a 384bit. Pytanie na jakiej pracuja czestotliwosci pozostanie na przyszlosc, choc opcje zamykaja sie miedzy 1 a 2 GHz.

http://www.pcgameshardware.com/aid,683947/...-by-Intel/News/

Artilekt · 13 Maja 2009

Pytanie na jakiej pracuja czestotliwosci pozostanie na przyszlosc, choc opcje zamykaja sie miedzy 1 a 2 GHz.

stawiałbym raczej na 2GHz z racji chęci osiągnięcia conajmniej 2TFlopów.

32rdzenie

2GHz

2048GFlops SP

512GFlops DP

LeeLoo_T · 14 Maja 2009

stawiałbym raczej na 2GHz z racji chęci osiągnięcia conajmniej 2TFlopów.

32rdzenie
2GHz
2048GFlops SP
512GFlops DP

W zaleznosci jakie beda potrzeby 32 rdzenie z vector 16-wide float lub 8-wide double float, podobnie int32 i int64. Jak w tabelce

Czyli

e.g. SIMD scalars

32 core x 16 scalar stream unit x 2 stream op. x 2GHz = 2.048 TFLOPs

Skoro rdzenie LRB sa zgodne z rozszerzeniem x86 w arch. in-order wyposazone w wielowatkowosc(4 watki na rdzen) SIMD SP:DP z reguly jest 2:1.

prznar1 · 14 Maja 2009

http://pclab.pl/news36704.html

nie zaskoczyło mnie to ani trochę

Artilekt · 17 Maja 2009

W zaleznosci jakie beda potrzeby 32 rdzenie z vector 16-wide float lub 8-wide double float, podobnie int32 i int64. Jak w tabelce

Powyższa tabelka dotyczy jedynie szerokości instrukcji jakie może przyjąc silnik VPU oraz jego rejestrów. Nie odnosi się bezpośrednio do wydajności silnika wektorowego.

Rejestr VPU układu Larrabee może operowac na 16 instrukcjach typu float32 , int32 lub na 8 instrukcjach typu float64 , int64 równolegle jednakże w przypadku instrukcji 32bit, instrukcje te mogą byc również typu multiply-add co podwaja wydajnosc (flops) silnika wektorowego z racji że ALU są jednostkami typu MADD(mogą wykonac operacje na trzech operandach równolegle). Na instrukcjach double precision 64bit tego się nie da zrobic z uwagi na fakt że poszczególne jednostki wektorowe silnika składają się z szesnastu 32bitowych jednostek. Dwie jednostki 32bit typu MADD nie mogą wykonac operacji 64bit typu MADD w jedym cyklu zegara gdyż operacje 64bit na 3 operandach nie można łaczyc w przypadku jednostek 32bit. Zatem aby wykonac instrukcje double precision mul/add najpierw trzeba za pomocą dwóch ALU wykonac operacje mul a potem za pomocą nastepnych dwóch operacje add.

Czyli
e.g. SIMD scalars
32 core x 16 scalar stream unit x 2 stream op. x 2GHz = 2.048 TFLOPs
Skoro rdzenie LRB sa zgodne z rozszerzeniem x86 w arch. in-order wyposazone w wielowatkowosc(4 watki na rdzen) SIMD SP:DP z reguly jest 2:1.

Silnik wektorowy LRB to nie to samo co jednostka FPU w procesorze. W procesorach np. Core2 możliwe jest osiągnięcie wspólczynnika 2:1 z racji tego że FPU jest 128bitowe i posiada 2 jednostki ALU: 128bit ADD oraz 128bit MUL. Zatem silnik ten może przeliczyc 2 instrukcje 64bit add/mul oraz 4 instrukcje 32bit add/mul. FPU łączy 2 jednostki ALU aby stworzyc jednostkę 128 typu MADD. Dzieki temu degradacja współczynnika SP:DP jest jedynie 2:1.

LeeLoo_T · 18 Maja 2009

Silnik wektorowy LRB to nie to samo co jednostka FPU w procesorze. W procesorach np. Core2 możliwe jest osiągnięcie wspólczynnika 2:1 z racji tego że FPU jest 128bitowe i posiada 2 jednostki ALU: 128bit ADD oraz 128bit MUL. Zatem silnik ten może przeliczyc 2 instrukcje 64bit add/mul oraz 4 instrukcje 32bit add/mul. FPU łączy 2 jednostki ALU aby stworzyc jednostkę 128 typu MADD. Dzieki temu degradacja współczynnika SP:DP jest jedynie 2:1.

LRBni plus x86, kazdy z rdzeni posiada prawdopodobnie jednostke wektorowa SIMD16 dual issue, czyli pracujace jako 2 programowalne maszyny wektorowe 2x256bit z oddzielnymi vec. registers+mask register, jako rozszerzenie P54C, a ten posiada skalarne SIMD dual-issue. W SIMD typu CPU potok dla SP i DP jest taki sam, w GT200 rozny. Podobne rozwiazanie ma NVIDIA dla SPU, zbudowane z 2 maszyn FMADD(SP) i FMUL(SFU) programowalne w oddzielnych cyklach. AMD RV7xx jest single-issue VLIW. Intel w zasadzie nie publikowal swiezych danych odnosnie wydajnosci FLOPowej poza starym ponad 2 letnim slajdem, jedynie ze slajdu HP wycieklo pare danych, ze Larrabee bedzie swietne do HPC i cluster farms, ale brak danych jak dziala na zywym kodzie. NVIDIA ma hybryde GPU, ktore do HPC srednio sie nadaje, bo ma narazie marniutką DP FP, a to jest kluczowe. Larrabee wyglada na cGPU, czyli maszyne liczaca z mozliwosciami renderowania, ale z naciskiem na to 1, z kilkoma rozwiazaniami wzietymi z GPU/VPU i SPE.

Artilekt · 19 Maja 2009

LRBni plus x86, kazdy z rdzeni posiada prawdopodobnie jednostke wektorowa SIMD16 dual issue, czyli pracujace jako 2 programowalne maszyny wektorowe 2x256bit z oddzielnymi vec. registers+mask register, jako rozszerzenie P54C, a ten posiada skalarne SIMD dual-issue. W SIMD typu CPU potok dla SP i DP jest taki sam, w GT200 rozny. Podobne rozwiazanie ma NVIDIA dla SPU, zbudowane z 2 maszyn FMADD(SP) i FMUL(SFU) programowalne w oddzielnych cyklach.

Jednostka wektorowa przyjmuje instrukcje 16wide 512bit zatem jest single issue(jedna instrukcja) gdyż operuje na 512bit rejestrach dla każdego z trzech operandów instrukcji , dwóch input i jednego output. Silnik VPU to szesnaście jednostek 32bit MADD/INT/FLOAT obliczających 512bit instrukcje LRBni w trybie AOS lub SOA.

Rdzeń P54C jest dual issue jedynie na poziomie dekodera instrukcji gdyż posiada 2 dekodery instrukcji x86, LRBni. P45C ma 2 porty, jeden skierowany właśnie do 512bit VPU a drugi do skalarnych jednostek 64bit int. W dodatku dzięki technologi STM możliwe jest dekodowanie instrukcji pochodzących z 4 różnych wątków.

W układzie GT200 do obliczania instrukcji 64bit DP Nvidia używa odrębnych jednostek ALU. Nie może użyc jednostek 32bit SP z racji tego, że układ wykonuje obliczenia na skalarnych instrukcjach w przeciwieństwie do wektorowych silników jakie ma Intel czy ATI.

Pan Adaś · 17 Września 2009

http://www.semiaccurate.com/2009/09/16/new...-out-weeks-ago/

Pan Adaś · 5 Grudnia 2009

Opóźnienie:

http://anandtech.com/weblog/showpost.aspx?i=659

razorjack · 8 Grudnia 2009

a nie przypadkiem zamknięcie? i co na to wszyscy fanboy'e ? :lol2:

Pan Adaś · 12 Marca 2010

Intel Has a Luxury of Releasing Larrabee in Its Own Time – Larrabee Engineer.

Intel’s Larrabee Set to “Come Back with a Vengeance”

http://www.xbitlabs.com/news/video/display...e_Engineer.html

Markiz88 · 12 Marca 2010

Intel Has a Luxury of Releasing Larrabee in Its Own Time – Larrabee Engineer.
Intel’s Larrabee Set to “Come Back with a Vengeance”

http://www.xbitlabs.com/news/video/display...e_Engineer.html

dopóki będą chcieli do kart graficznych wepchnąć x86 to będzie to nie wypałem, takie moje zdanie w tej kwestii, bo ile można trzymać przy życia taki antyk przy życiu ?

A patrząc na rozwój obecny komputerów to większe szanse są na to że architektura GPU zagości w CPU, pewne podwaliny może zrobić tutaj już AMD w swoim projekcie Fusion. Ale czy zrobi to się wszystko okaże.

LeeLoo_T · 30 Lipca 2012

Troche ozywie temat, bo Intel zdecydowal sie przedstawic LRB w konwencji Xeon Phi.

Zdjecie karty i najwazniejsze cechy wskazuja, ze bedzie porownywalne z Tesla K20

Wersja typowa HPC i kompaktowa FormFactor

566706d1343592591-neue-bilder-von-xeonphi-pcb-denseformfactor-und-pci-e-knc-pcb-pci-e.jpg 566707d1343592592-neue-bilder-von-xeonphi-pcb-denseformfactor-und-pci-e-knc-pcb-dff.jpg

Knights Corner (KNC): first MIC commercial product

– > 50 Cores x86, 22nm technology, running Linux

– Mezzanine card (PCIe card, Dense Form Factor in 2013)

– Board management controller on SMbus

– Development by Intel, support by Intel Europe

• Important features for DEEP:

– High performance

– Sufficient memory bandwidth

– Possibility to directly attach a network

– Ability to run general purpose codes (MPI-library)

– Autonomous operation (with EXTOLL)

– Energy efficient: 5 GFlop/W

– Direct water cooling possible

– Extensible software stack: network drivers

Prezentacja z projektu DEEP, w ktorym pojawia sie te karty w duzej ilosci. http://www.deep-project.eu/SharedDocs/Downloads/DEEP-PROJECT/EN/Presentations/ISC12-Presentation-Lippert.pdf?__blob=publicationFile

LeeLoo_T · 31 Lipca 2012

http://vr-zone.com/articles/intel-xeon-phi-b0-stepping--the-knight-in-shining-armor-/16871.html

Knights Corner B0 comes in several flavors, with 57C, 60C and 61 cores being the most common configurations. Yes, the company unlocked an odd number of cores, compared to even number in Larrabee and Aubrey Isle. The change in number of processing cores changed L1 and L2 cache, and we now have 1.8-1.9MB of L1 and 28-30.5MB of L2 cache. Onboard memory now greatly varies between the parts, with available flavors being 3GB, 6GB and 8GB of GDDR5 memory.

Temat został przeniesiony do archiwum

Intel Larrabee GPU

Rekomendowane odpowiedzi

SuLac0 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

skyline rider 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

LeeLoo_T 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Artilekt 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

LeeLoo_T 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

prznar1 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Artilekt 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

LeeLoo_T 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Artilekt 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Pan Adaś 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Pan Adaś 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

razorjack 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Pan Adaś 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Markiz88 42

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

LeeLoo_T 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

LeeLoo_T 0

Udostępnij tę odpowiedź

Odnośnik do odpowiedzi

Udostępnij na innych stronach

Ostatnio przeglądający 0 użytkowników

Tematy

Odpowiedzi

Aktywni użytkownicy

Przeglądaj

Aktywność