Nowy hardware pod AI

Wielka trójka technologiczna (Apple,Nvidia, Samsung) bierze się na całego za produkcję własnych chipów wspierających AI. W grudniu zaś intel pokazał dedykowany układ Meteor Lake, którego strukturę tworzyło samo AI. Czym się odróżniają od konkurencji ? Posiadają modułową architekturę oraz jednostkę NPU (neural processing unit) przyspieszający działanie sztucznej inteligencji podczas rozpoznawania mowy czy edycji obrazów. Nowe laptopy AI mają ukazać się w sprzedaży na początku roku. Zobaczymy jak im to wyjdzie….

Dyrektor generalny Intela, Patrick Gelsinger mówił o nowej klasie komputerów osobistych z AI, opartych na 5-tej generacji Xeonach. Pisze dalej, że „ Intel Core Ultra, jak i Xeon piątej generacji trafią do miejsc, których możesz się nie spodziewać. Wyobraź sobie restaurację, która kieruje Twoim wyborem menu w oparciu o Twój budżet i potrzeby dietetyczne. Hala produkcyjna, która wychwytuje problemy związane z jakością i bezpieczeństwem u źródła. USG, które widzi to, co ludzkie oko może przeoczyć. Sieć energetyczna, która zarządza energią elektryczną ze szczególną precyzją”

Event Intela , 15.12.2023

Inne firmy również ścigają się w budowaniu coraz lepszego hardware’u ale to głównie do datacenters gdzie prowadzi się projekty AI.

Ostatnie miesiące 2023 roku pełne są newsów dotyczących sztucznej inteligencji. Przełomowe publikacje wpłynęły na postrzeganie obszaru Machine Learning . Jednym z nich niewątpliwie był artykuł „Attention is All you Need” : https://www.google.com/url?sa=t&source=web&rct=j&url=https://papers.neurips.cc/paper/7181-attention-is-all-you-need.pdf&ved=2ahUKEwjsjqKxgZr-AhXeCRAIHdZBANgQFnoECBQQAQ&usg=AOvVaw1cAtW29vELY8ze9FV79yz3

Sprzęt do AI można by podzielić ogólnie na:

Pamięci:

Elektroniczne repozytorium danych do krótkotrwałego przechowywania podczas przetwarzania. Pamięć zwykle składa się z pamięci DRAM

Dyski danych

Elektroniczne repozytorium do długoterminowego przechowywania dużych zbiorów danych. Pamięć masowa zazwyczaj składa się z logiki NAND2

CPU czyli procesor centralny

Procesor zoptymalizowany do obliczania operacji sieci neuronowej, tj. splotu i mnożenia macierzy. Urządzeniami logicznymi są zazwyczaj procesory, karty graficzne, układy FPGA i/lub sieci ASIC3,

Pozostałe

Czyli przełączniki, routery i inny sprzęt używany do łączenia serwerów w chmurze i łączenia urządzeń brzegowych

Zoptymalizowane pod AI , oto alternatywy dla standardowego procesora dostępne już na rynku

Jednostka centralna (CPU) komputera jest odpowiedzialna za odbieranie i wykonywanie instrukcji. Jest sercem komputera, a jego częstotliwość taktowania określa szybkość, z jaką może przetwarzać obliczenia.

W przypadku zadań wymagających częstych lub intensywnych obliczeń, takich jak algorytmy sztucznej inteligencji, w celu poprawy wydajności można zastosować specjalistyczny sprzęt. Ten sprzęt zwykle nie wykorzystuje różnych algorytmów ani danych wejściowych, ale został zaprojektowany specjalnie do obsługi dużych ilości danych by zapewniać dużą moc obliczeniową.

1. NVIDIA DGX Station (link) – nowy superkomputer, który służy do trenowania sieci, analityki. Zawiera nowy chip DGX A100, który ma zintegrowanych 8 kart graficznych z pamięcią 640 GB.

2. INTEL Habana Gaudi2 – wykonany w technologii 7nm i może poszczycić się dwukrotną wydajnością A100-80GB od konkurencji z Nvidii.

3. IBMz16 – został zaprojektowany specjalnie w celu poprawy wydajności dużych zestawów danych, procesor oferuje akcelerację na specjalnym chipie do AI. Posiada odporność cybernetyczną do pracy w chmurze hybrydowej i wykorzystuje ich bezpieczną technologię kwantową.

4. AMD Zen4 – wrześniu 2022 firma Advanced Micro Device wydała nowszą wersję swojej mikroarchitektury Zen — Zen 4 — opartą na architekturze 5 nm. Chociaż AMD nie wypowiadało się zbyt głośno na temat opracowywania sprzętu specjalnie dla sztucznej inteligencji, firma wprowadziła już w maju serię Ryzen 7000 , czyli nową linię procesorów do komputerów PC zbudowaną z myślą o uczeniu maszynowym. Teraz spodziewa się dalszego rozwoju dzięki Zen 4.

5. Tesla Dojo – nowy chip Dojo do szybszego szkolenia i wnioskowania w samojezdnych samochodach. Tesla twierdzi, że cztery obudowy chipów Dojo mogą swą wydajnością zastąpić 4000 procesorów graficznych w 72 stojakach. Poza samojezdnymi samochodami chip Dojo jest również wykorzystywany w Optimusie Robot.

6. Google TPU – Google polega na jednostkach TPU we wszystkich swoich usługach opartych na uczeniu maszynowym, w tym tych znajdujących się w linii smartfonów Pixel . Chipy te obsługują lokalnie zadania, takie jak rozpoznawanie mowy, tłumaczenie na żywo i przetwarzanie obrazu.

7. Graviton od Amazon – typy instancji oparte na Graviton oferują do 40% lepszą wydajność cenową w porównaniu z instancjami piątej generacji. (Pierwsza generacja (A1) instancji EC2 opartych na ARM i zasilanych przez Graviton została wprowadzona na rynek podczas re:Invent 2018.) Zestaw funkcji procesora Graviton jest zoptymalizowany pod kątem obciążeń w chmurze i oferuje następujące korzyści:

Duże pamięci podręczne L1 i L2 dla każdej wirtualnej jednostki centralnej (vCPU), co oznacza, że duża część zadań zmieści się w pamięci podręcznej bez konieczności przechodzenia do pamięci.
Każdy procesor wirtualny jest rdzeniem fizycznym, co oznacza większą izolację między procesorami wirtualnymi i brak współdzielenia zasobów między procesorami wirtualnymi, z wyjątkiem pamięci podręcznej ostatniego poziomu i systemu pamięci.
Rdzenie połączone ze sobą w siatkę o przepustowości ~2 TB/s w dwusekcji, co pozwala aplikacjom na bardzo szybkie przenoszenie się z rdzenia do rdzenia podczas udostępniania danych.
Architektura pamięci Graviton oznacza, że nie musisz się martwić, skąd jest alokowana pamięć aplikacji lub które rdzenie obsługują aplikację.

8. DataScale SN30 – System jest zasilany przez układ Cardinal SN30 i jest zbudowany dla dużych modeli z ponad 100 miliardami parametrów wraz z obrazami 2D i 3D. W pełni zintegrowany system sprzętowo-programowy jest zbudowany z myślą o obciążeniach AI i deep learning z chipem wykonanym w procesie 7 nm TSMC, zdolnym do 688 teraflopów. Według producenta SambaNova system oferuje 12,8 razy większą pojemność pamięci niż DGX A100 firmy NVIDIA.

Określenie wychowywania sieci AI, czyli super-komputera, jeszcze do niedawna kojarzyło się z filmami science-fiction. Machine Learning to w zasadzie proces , w którym znajduję wiele analogii do wychowywania dzieci. Oczywiście trenowanie modeli nie niesie takich emocji jak doświadczamy z żywymi dziećmi 😉

PAWEŁ KUROWSKI