## Notes ## TODOs - [x] Bestelle Kabel und Tranciever fuer 25Gbit/s NICs (make your research) - [x] Laenge der Kabel und Art der Kabel. DAC Kabel. ## Discussion with qwerty - multi-GPU setup needs extra considerations 1. Interconnect Compatibility 2. Driver & and Software Configuration: multi-GPU support 3. Power & Cooling ## Info - Bjoern Schwalb number: +49 177 7539 085 - Idee: Zentraler LDAP Server fuer User management in High Computing Environment ODER nutze Ansible fuer User Management ## Requirement **Linux Betriebssystem** (momentan haben wir Ubuntu 22.04) da wir den Server dann optimalerweise in unseren Slurm Workload Scheduler einbinden wollen. Wir benötigen eine Anbindung an unseren **Qumulo Storage** (25 GBit bei unseren jetzigen Servern) GPU Architekturen NVIDIA **A100**, **H100** oder**L40s** mit min 48 GB GPU Memory. (Diese sind für viele AI Anwendungen empfohlen, unter anderem auch für das Programm das wir hauptsächlich nutzen wollen: boltz-2 [](https://github.com/jwohlwend/boltz "https://github.com/jwohlwend/boltz")[https://github.com/jwohlwend/boltz](https://github.com/jwohlwend/boltz "https://github.com/jwohlwend/boltz")) ## Tasks estimate - HW auspacken, in Rack verbauen, verkabeln, zusammenbauen (potentiell custom build?) - Ubuntu 22.04 LTS (24.04 LTS??) installieren und konfigurieren; wuerde ich gerne mit ansible auf setzen, sodass man die anderen beiden Server gleichzeitig geclustered verwalten kann. Ich denke, dass wuerde auch dem Bjoern gefallen, da Ansible komplett Python basiert ist und die sich damit auskennen. Oder ich klone einfach die alten wie Holger, was ich aber nicht so mag.  - 25Gbit Netzwerkkarte Treiber installieren und konfigurieren (nur einer noetig? und transciever?) - Interface failover bond zweier 25Gbit Anschluesse an die beiden 25Gbit Switches - NVIDIA Treiber installieren: nvidia-smi, cuda, multi-gpu support - fstab anpassen, sodass qumulo Storage ueber nfs an neuen Server angebunden ist ## Angebot Hardware | POS | BEZEICHNUNG | ANZ. | EINZELPREIS | GESAMTPREIS | | --- | --------------------------------------------------------------------- | ---- | ----------- | ----------- | | 1 | HPE DL380a Gen11 4DW CTO Svr | 1 | 6.084,55 € | 6.084,55 € | | 2 | INT Xeon-G 6526Y CPU for HPE 2,8 Ghz - 16 Kerne - 37,5MB L3 Cache | 2 | 1.429,21 € | 2.858,42 € | | 3 | HPE 64GB 2Rx4 PC5-5600B-R Smart Kit | 8 | 442,39 € | 3.539,14 € | | 4 | HPE DL380a Gen11 8SFF x4 U.3 NVMe BC | 1 | 217,72 € | 217,72 € | | 5 | HPE 960G NVMe RI SFF BC U.3ST V2 MV SSD | 2 | 304,54 € | 609,07 € | | 6 | BCM 57414 10/25GbE 2p SFP28 Adptr | 2 | 191,62 € | 383,23 € | | 7 | HPE Smart Hybrid Capacitor w/ 260mm Cbl | 1 | 73,08 € | 73,08 € | | 8 | HPE MR416i-o Gen11 SPDM Storage Cntlr | 1 | 841,15 € | 841,15 € | | 9 | BCM 5719 1Gb 4p BASE-T OCP Adptr | 1 | 83,71 € | 83,71 € | | 10 | **NVIDIA H100 NVL 94GB PCIe Accelerator** | 2 | 31.368,55 € | 62.737,10 € | | 11 | HPE 1800W-2200W FS Ti Ht Plg PS Kit | 4 | 280,36 € | 1.121,42 € | | 12 | HPE iLO Adv 1-svr Lic 3yr Support | 1 | 325,82 € | 325,82 € | | 13 | HPE Cmp Cloud Mgmt Srv FIO Enablement | 1 | 0,86 € | 0,86 € | | 14 | HPE AL STG SVR 4120 OCP2 Upg Cbl Kit | 1 | 58,42 € | 58,42 € | | 15 | HPE DL380a Gen11 OROC Prim TM Cbl Kit | 1 | 98,83 € | 98,83 € | | 16 | HPE DL380a Gen11 GPU 16p v3 FIO Cbl | 1 | 139,72 € | 139,72 € | | 17 | HPE DL3XX Gen11 2U Com Bezel Kit | 1 | 27,47 € | 27,47 € | | 18 | HPE Apollo 4200 Gen10+ CMA | 1 | 74,22 € | 74,22 € | | 19 | HPE AL STG SVR 4120 Stnd Heat Sink Kit | 2 | 55,72 € | 111,43 € | | 20 | HPE DL3XX Gen11 Ball Bearing Rail 8 Kit | 1 | 112,28 € | 112,28 € | | 21 | HPE COM Std 3yr Up ProLiant SaaS | 1 | 354,47 € | 354,47 € | | 22 | HPE iLO Advanced Non Blade Support HPE **5Y Tech Care Essential** SVC | 1 | 26,16 € | 26,16 € | | 23 | HPE DL380a Gen11 Support - zugehörig zu Pos. 22 | 1 | 12.048,30 € | 12.048,30 € |