Kosztowna szybkość
Superkomputery to drogie urządzenia. Koszt budowy chińskiego systemu Sunway wyniósł ponad 270 milionów dolarów, amerykański Summit kosztował około 200 milionów. Zużywają one też sporo energii. Tianhe-2A potrzebuje prawie 20 megawatów mocy, Sunway około 17 megawatów. Oszczędniejsze są amerykańskie konstrukcje ze szczytu listy TOP500. Do zasilenia Summita potrzeba niecałych 10 megawatów, a Sierry – ponad 7 megawatów.
Aby korzystanie z superkomputerów było opłacalne, kładzie się więc duży nacisk na wydajność energetyczną. Obok listy TOP500 i rankingu HPCG funkcjonuje jeszcze lista Green500. Systemy są uszeregowane na niej od najbardziej energooszczędnego. Urządzenia klasyfikuje się na podstawie wydajności obliczeniowej przypadającej na wat zużytej mocy. Królują na niej konstrukcje japońskie i amerykańskie. W pierwszej dziesiątce znalazło się też po jednym systemie z Chin, Hiszpanii i Tajwanu. Polskie superkomputery plasują się w drugiej setce tego rankingu, a najwydajniejszy i jednocześnie najbardziej efektywny Prometeusz zajmuje 120. miejsce.
Jako to działa?
Superkomputery to zazwyczaj klastry komputerowe korzystające z tak zwanej architektury masowo równoległej. Klastry składają się z węzłów, w skład których wchodzi procesor z własnym podsystemem, ze specjalną pamięcią i kopią systemu operacyjnego. Komunikacja między podsystemami zapewniana jest przez łącza o dużej szybkości. Wewnątrz węzła stosowane są często wieloprocesorowe rozwiązania symetryczne korzystające ze wspomagania jednostek GPU, których zdolności obliczeń zmiennoprzecinkowych znacznie przekraczają możliwości tradycyjnych procesorów. Procesory to oczywiście konstrukcje wielordzeniowe obsługujące wiele wątków.
Najmniejszymi elementami architektury Blue Gene rozwijanej przez IBM i stosowanej przez innych producentów są chip, którym to mianem określa się jeden bądź więcej procesorów, i karta, na której znajdują się procesory wraz z przypisaną do nich pamięcią operacyjną. Karta jest podstawową wymienną jednostką superkomputera. Karty łączone są w węzły, a te są elementami składowymi szaf. To tutaj z reguły zapewniane jest odpowiednie chłodzenie. W zależności od jego wydajności w każdej szafie może się znajdować więcej bądź mniej węzłów. Gęste upakowanie ma wpływ na redukcję długości magistrali danych łączących węzły. Gęstość wpływa także na przestrzeń potrzebną dla całego komputera. Poszczególne szafy tworzą cały klaster albo system superkomputera.
Bardzo ważna z punktu wydajności są pamięć operacyjna oraz magistrale danych, za pomocą których poszczególne elementy superkomputera wymieniają pomiędzy sobą informacje. Są więc magistrale lokalne do komunikacji między procesorami, GPU i pamięcią operacyjną oraz magistrale łączące poszczególne węzły. Lokalnie stosuje się dziś najczęściej protokół NVLink, który pozwala na transfery do 300GB/s czyli o połowę więcej niż magistrala PCIe. GPU korzystają z pamięci HBM (pamięci wysokiej wydajności). Magazynami danych są natomiast z reguły dyski SSD z interfejsem NVMe podpięte do magistrali PCIe. Węzły połączone są zazwyczaj za pomocą magistrali InfiniBand (IB), zapewniającej bardzo dużą szybkość przesyłania danych i minimalne opóźnienia. Pojedynczy link InfiniBand w wersji EDR umożliwia transfer rzędu 25 Gbit/s. Standard pozwala łączyć do 12 takich linków. Poza węzłami jest też umieszczona dodatkowa przestrzeń dyskowa na dane dla całego komputera.
Szczególną rolę w architekturze superkomputerów odgrywają procesory graficzne. Coraz częściej przejmują one wyspecjalizowane zadania realizowane do tej pory przez CPU. Są to zadania, które mogą być przetwarzane równolegle, a z myślą o takich GPU zostały przecież zoptymalizowane. Na tym bazuje obróbka grafiki komputerowej. Układy graficzne mimo prostszej budowy mogą zawierać tysiące rdzeni – Nvidia Volta ma na przykład 640 rdzeni tensorowych i 5120 rdzeni CUDA. Zużywają przy tym mniej energii.
Tymczasem CPU mają zazwyczaj maksymalnie kilkanaście rdzeni. Jak to się sprawdza w praktyce? Przykładowo po uzupełnieniu węzłów superkomputera Jaguar modułami GPU udało się w 2012 roku poprawić dziesięciokrotnie jego moc obliczeniową. Wzrosła ona z 2,7 petaflopa do 27 PFLOPS, a zużycie energii zwiększyło się jedynie z 7 MW do 8,2 MW. Pomysł okazał się tak dobry, że aktualnie węzeł pierwszego na liście TOP500 superkomputera Summit składa się z dwóch procesorów IBM Power9 i 6 układów Nvidia Volta.
Superkomputery to wytrwałe maszyny. Pracują non stop od uruchomienia, do chwili modernizacji albo wymiany na nowsze. Nie mają przerw ani momentów bezczynności. Bez nich niemożliwe byłoby przeprowadzenie wielu badań i dokonanie przełomowych odkryć. Wspomagają naukę i gospodarkę, pozwalają uniknąć wielu błędów inżynierskich. Najszybsze i najnowocześniejsze systemy na świecie pobudzają wyobraźnię wielu osób. Na tym tle polskie konstrukcje nie wydają się tak doskonałe. Nie mamy się jednak czego wstydzić. Najszybsze opiszemy w kolejnym numerze.