Globalny superkomputer

PC Format 3/2018

Coraz częściej do celów naukowych wykorzystuje się systemy rozproszone, które pozwalają na uzyskanie efektów podobnych do rezultatów pracy superkomputerów, tyle że znacznie mniejszym kosztem. Z technologii korzystają najbardziej zaawansowane instytucje badawcze, np. CERN, oraz mniejsze projekty, które działają dzięki wolontariuszom udostępniającym własne pecety w sieci. Bartłomiej Mrożewski

Rejestrowanie danych

Klaster obliczeniowy LHC składa się z węzłów uporządkowanych w czterech szeregach (Tier 0, 1, 2 i 3). Na najwyższym poziomie (Tier 0) znajduje się superkomputer w centrali CERN w Genewie, który dostarcza ok. 20 proc. mocy obliczeniowej. Jego zadaniem jest archiwizacja surowych danych oraz kontrola całego systemu rozproszonego. Właśnie tam w pierwszej kolejności trafiają informacje zarejestrowane w eksperymentach LHC. Zanim zostaną rozesłane do dalszego przetwarzania, centrum w CERN dokonuje wstępnej obróbki w celu wyselekcjonowania najbardziej obiecujących pod względem naukowym rozpadów cząstek elementarnych.

Algorytmy filtrują ok. 600 mln zarejestrowanych zdarzeń na sekundę w celu wybrania ok. 100 tys., które nadają się do przetworzenia cyfrowego. Kolejny program, który wykorzystuje aż 15 tys. rdzeni obliczeniowych, wybiera z tego zbioru 100–200 zdarzeń na sekundę, które mogą zawierać interesujący materiał do badań. Dane trafiają do archiwum CERN, w którym od początku działania akceleratora zebrano 200 petabajtów (milionów gigabajtów) informacji. Kopia zapasowa tego zasobu znajduje się w Budapeszcie, z którym CERN połączony jest światłowodem o przepustowości 100 Gbit/s.

Przetwarzanie informacji

Po wstępnej selekcji zdarzenia trafiają do trzynastu centrów obliczeniowych, które tworzą Tier 1 klastra Worldwide LHC Computing Grid. Tworzą go potężne narodowe ośrodki badań nuklearnych zlokalizowane w największych krajach europejskich (m.in. we Francji, Niemczech, Rosji, Włoszech), w Ameryce Północnej (w Kanadzie i USA) oraz Azji (w Korei Południowej i na Tajwanie). Dysponują one własnymi superkomputerami oraz systemami pamięci masowej (taśmami), które umożliwiają przetwarzanie informacji oraz przechowywanie części surowych danych z LHC. Z centralą CERN są połączone światłowodami o przepustowości 10 Gbit/s. W centrach szeregu Tier 1 są dokonywane główne obliczenia związane z interpretacją zdarzeń zarejestrowanych w akceleratorze. Gdy LHC nie pracuje (przez ok. sześć miesięcy w roku) i nie ma potrzeby filtrowania i archiwizacji zapisu zdarzeń w czasie rzeczywistym, do analizy wyników zaprzęgane jest także centrum superkomputerowe w CERN (Tier 0).

Pozyskiwanie danych naukowych

Maszyny znajdujące się na niższym poziomie (Tier 2), przeważnie zlokalizowane w uniwersytetach i instytutach naukowych, pełnią rolę pomocniczą w całym procesie. Udostępniają zasoby pamięci w celu przechowywania danych wygenerowanych w centrach wyższego rzędu, a także uruchamiają wyspecjalizowane aplikacje do ich interpretacji w celu uzyskania konkretnych rezultatów naukowych. Efekty są następnie udostępniane całej społeczności naukowej związanej z CERN, którą tworzy ok. 8000 fizyków na całym świecie.

Ostatnim, najniższym szeregiem (Tier 3) w Worldwide LHC Computing Grid są indywidualne stacje robocze, za pomocą których fizycy korzystają z danych CERN. Z ich punktu widzenia Worldwide LHC Computing Grid zachowuje się jak zunifikowany superkomputer. Po autoryzacji pozwala na zdefiniowanie zadania, które wymaga zasobów obliczeniowych, przestrzeni dyskowej, a także odpowiedniego oprogramowania. W zależności od aktualnej kondycji klastra system wyszukuje i alokuje fizyczne zasoby w podłączonych centrach obliczeniowych. Użytkownik sieci CERN nie musi się martwić tym, skąd pochodzą przydzielone zasoby, dzięki czemu może skupić się na aplikacjach naukowych.

Superkomputer z pecetów

Działanie Worldwide LHC Computing Grid to zasługa udostępnienia przez współpracujące z CERN państwa części swoich narodowych zasobów superkomputerowych. Wiele projektów badawczych nie może liczyć na takie wsparcie. Alternatywą jest tworzenie rozproszonych systemów obliczeniowych z komputerów ochotników, którzy udostępniają do celów naukowych swoje prywatne maszyny. Tę formę spopularyzował uruchomiony w 1999 roku projekt SETI@home. Nie była to pierwsza inicjatywa tego typu, ponieważ już w 1997 roku zaczął działać Distributed.net, który istnieje do dziś i specjalizuje się w testowaniu bezpieczeństwa algorytmów kryptograficznych. Jednak nośna idea poszukiwania życia pozaziemskiego sprawiła, że SETI@home zyskał masowe wsparcie – obecnie społeczność zgromadzona wokół projektu liczy 1,5 mln użytkowników. Dzięki temu, że podzielili się mocą obliczeniową swoich komputerów, można systematycznie analizować dane z największego na świecie radioteleskopu Arecibo. Są one przeszukiwane pod kątem śladów cywilizacji pozaziemskich. Obliczenia rozproszone pozwalają naukowcom korzystać z mocy ok. 700 teraflopsów, co odpowiada blisko połowie wydajności najpotężniejszego superkomputera w Polsce.

Tagi: sprzęt nauka

Ocena:

Oceń: