Czym Larrabee będzie różnił się od dzisiejszych GPU? Po pierwsze, jest dalece bardziej programowalny i dysponuje większymi możliwościami, niż współczesne procesory graficzne. Po drugie, oferuje nie tylko zgodność ze standardami DirectX i OpenGL w kwestii generowania grafiki, ale również z x86 (32-bit i 64-bit), jeśli chodzi o uruchamianie oprogramowania. Konkurencyjne chipy GeForce i Radeon wymagają kompilowania pisanego na nie kodu specjalnym kompilatorem (CUDA w przypadku NVIDII i Stream SDK u ATI).
Ogólna architektura Larrabee
Larrabee składa się (podobnie jak współczesne GPU) z wielu małych, stosunkowo prostych rdzeni Multithreaded Wide SIMD, w których znajdują się jednostki x86 oraz jednostki przetwarzania wektorowego (VPU).
Co może stanowić pewną niespodziankę, każda z jednostek x86 oparta jest na architekturze P54C – czyli klasycznego procesora Pentium, wprowadzonego na rynek w 1993 roku. Na potrzeby Larrabee została ona zaktualizowana między innymi o obsługę 64-bitowych instrukcji EM64T oraz kontroler L1/L2 z funkcją prefetch (umożliwiający odczytywanie „na zapas” danych z pamięci cache).
Architektura jednostek przetwarzania wektorowego
Z kolei jednostki przetwarzania wektorowego (VPU) zawierają 512-bitową logikę i są zdolne do wykonywania szesnastu 32-bitowych operacji o pojedynczej lub podwójnej precyzji w ciągu jednego taktu zegara. Można to porównać do jednostek SSE we współczesnych CPU, z tym że w Larrabee będą one szybsze i bardziej rozbudowane.
Architektura rdzeni Multithreaded Wide SIMD
Każdy z rdzeni będzie dysponował Multithreaded Wide SIMD 64 KB pamięci podręcznej L1 (32 KB na instrukcje i 32 KB na dane). Do tego dochodzi pamięć cache drugiego poziomu, która będzie współdzielona pomiędzy rdzenie – każdy z nich będzie miał szybki dostęp do 256 KB L2. Za komunikację pomiędzy rdzeniami i pamięcią oraz pomiędzy samymi rdzeniami odpowiedzialna będzie dwukierunkowa 1024-bitowa sieć pierścieniowa (ring-bus) – po 512 bitów w każdym kierunku. Intel zapowiada, że pamięci L1 i L2 będą zorientowane na wysoką przepustowość przy jednoczesnym niskim poziomie opóźnień (latency).
Skalowanie Larrabee – dwa razy więcej rdzeni to dwa razy wyższa wydajność w grach
Jak widać, jednostki x86 w Larrabee potrafią więcej, niż analogiczne jednostki obecne w kartach graficznych ATI, czy NVIDII. W nowym chipie Intela będą one bowiem oferowały takie możliwości, jak stronicowanie pamięci, działanie na kilku wątkach, czy możliwość przełączania kontekstu i wielozadaniowość z wywłaszczaniem. Intel zapewnia również, iż Larrabee bardzo dobrze się skaluje pod względem liczby rdzeni – aby osiągnąć dwa razy wyższą wydajność, wystarczy podwoić liczbę rdzeni.
Pierwsze wersje Larrabee będą najprawdopodobniej oferowały 8 lub 16 rdzeni przy zegarze taktowania wynoszącym około 2 GHz. Chipowi ma towarzyszyć 512MB – 2 GB pamięci GDDR5, chociaż do 2009 roku wielkości te mogą ulec zmianie.