English

Projekty

Klaster obliczeniowy dla Uniwersytetu Rzeszowskiego

MEGATEL, lider konsorcjum MEGATEL/OPTEAM Rzeszów, dostarczył dla Interdyscyplinarnego Centrum Modelowania Komputerowego Uniwersytetu Rzeszowskiego bardzo interesujący klaster. Interesujący dlatego, że skupia wszystkie najnowsze trendy w technice obliczeniowej.

Po pierwsze, klaster ten przy stosunkowo niewielkim budżecie będzie się wolno starzeć, a to dzięki zaprojektowaniu miejsca na akceleratory obliczeniowe GPU, po drugie – służyć będzie do obliczeń wsadowych i interakcyjnych oraz dla doświadczonych i początkujących użytkowników. Po trzecie, w klastrze zastosowano wielowęzłowy, odporny na awarie, dostępny zdalnie system plików HA NFS.

Zaoferowane rozwiązanie zakłada włożenie 120 kart akceleratorów przy 40 węzłach (3 karty na węzeł). Moc obliczeniową klastra, która w dniu zakupu wynosi 7,5 TFlops, można powiększyć do co najmniej 150 TFlops w trakcie użytkowania urządzenia.

Podstawą konstrukcji klastra są serwery firmy HP model HP SL250 G8, które posiadają 3 złącza PCIe 3.0x16 komunikujące się BEZBLOKADOWO z dwoma procesorami węzła. Węzeł ma odpowiedni zapas mocy elektrycznej i chłodniczej, przy równoczesnej odporności na awarie zasilaczy i wiatraków. Złącza PCIe charakteryzują się pełną wysokością, pełną długością i są „grube”, czyli w takim rozmiarze, który umożliwia włożenie dowolnej karty PCI GPU.

 

 

Najważniejsze w tym przedsięwzięciu jest to, że wybór węzłów gotowych na dalszą rozbudowę o karty GPU praktycznie nie spowodował zmiany ceny zakupu klastra. Jego użytkownicy mają pełną swobodę wyboru dostępnych teraz i przez najbliższe 3 lata akceleratorów GPU firm INTEL, ATI, NVIDIA. W projekcie w ramach testów zastosowano 4 karty NVIDIA Tesla K20 5GB.

Klaster, co jest rzadkością na rynku, działa pod kontrolą systemu MS Windows HPC. Pozwala to używać i systemu kolejkowego, i aplikacji interaktywnych, takich jak ANSYS (obliczanie przepływów płynów). Dodatkowo klaster podzielono na dwie części, które w dowolnym momencie można programowo lub sprzętowo złączyć, a potem ponownie rozdzielić. Taka architektura sprawia, że niedoświadczeni użytkownicy nie będą przeszkadzać bardziej doświadczonym, i wzajemnie.

Odporność zdalnego systemu plików uzyskano, stosując rozwiązanie oparte o otwarte oprogramowanie DRBD i serwery HP SL4540. Serwery SL4540 to wyspecjalizowane maszyny, mogące pomieścić 60 dysków w 4U wysokości szafy. Kontrolery dyskowe tych serwerów, oprócz standardowych zabezpieczeń RAID od 1 do 6, posiadają unikalną właściwość wykorzystywania szybkich dysków SSD jako pamięci CACHE, co znacząco przyspiesza operacje dyskowe.

W ramach projektu stworzono symetryczny dwuwęzłowy klaster dyskowy działający w trybie ACTIVE-PASIVE. Aktywny węzeł obsługuje klientów i w tle replikuje dane na węzeł pasywny. Całość kontrolowana jest zrealizowanym programowo mechanizmem HEARTBEAT, który w razie awarii węzła aktywnego przekierowuje ruch na jego odbicie zwierciadlane – węzeł pasywny.

Stworzoną w ten sposób macierz dyskową poddano tzw. STRESTESTOM, w tym: niespodziewanemu wyłączaniu i włączaniu zasilania węzła aktywnego w trakcie operacji na plikach. Podczas wszystkich testów nie tylko nie zostały utracone dane, ale nawet sesje połączeniowe klientów do systemu dyskowego nie uległy przerwaniu.

Kolegom z Rzeszowa oczywiście nie życzymy takich stresów. Tylko udanych obliczeń!

Dane techniczne klastra:

Łączna moc obliczeniowa to 7,5 TFLOPS; ilość węzłów – 40 sztuk; węzły 2-procesorowe połączone siecią INFINIBAND; pojemność zasobu dyskowego – 18TB.

Budżet – 1,4 mln PLN; termin oddania do eksploatacji – marzec 2014 r.