Upgrade eines GPU-Clusters mit NVIDIA DGX B300 Systemen und CEPH-Storage
Was wird ausgeschrieben
Die Universität der Bundeswehr München beschafft drei NVIDIA DGX B300 Deep-Learning-Systeme sowie vier NVMe-basierte CEPH-Storage-Server zur Erweiterung eines bestehenden GPU-Clusters. Der Auftrag umfasst neben der Lieferung und Installation auch die Vernetzung der Komponenten sowie einen fünfjährigen Software-Support und Wartungsvertrag. Die Beschaffung erfolgt im Rahmen des Forschungsprojekts dtec.bw.
Vollständige Beschreibung anzeigen
Lieferung, Installation und Inbetriebnahme von 3 NVIDIA DGX B300 Deep-Learning-Systemen einschließlich eines angebundenen NVMe-basierten CEPH-Storage-Systems sowie der notwendigen Vernetzungskomponenten, Einbindung in das bestehende Cluster, Software-Support und Wartungsverträgen.
Die Universität der Bundeswehr München möchte ihre Rechenkapazitäten für Künstliche Intelligenz ausbauen und schreibt dafür die Lieferung und Einrichtung von drei leistungsstarken NVIDIA DGX B300 Deep-Learning-Systemen aus. Zusätzlich müssen vier spezielle Speicher-Server (CEPH-Storage) geliefert und in das bestehende System integriert werden, um große Datenmengen schnell verarbeiten zu können. Der Auftrag beinhaltet zudem eine fünfjährige Wartungs- und Supportvereinbarung, um den Betrieb der Forschungsinfrastruktur langfristig sicherzustellen. Die Vergabe erfolgt rein nach dem günstigsten Preis. (interne Bezeichnung des Auftraggebers: Upgrade eines NVIDIA DGX A100 GPU-Clusters um drei NVIDIA DGX B300 Deep-Learning-Systeme für das dtec.bw-Forschungsprojekt MORE)
Aufteilung in Lose
1 LotGegenstand des Auftrags ist die Erweiterung des bestehenden GPU-Clusters. Der Auftragnehmer muss drei NVIDIA DGX B300 Deep-Learning-Systeme, vier NVMe-basierte CEPH-Storage-Server sowie die notwendigen Vernetzungskomponenten liefern, installieren und mit dem bestehenden GPU Cluster vernetzen. Darüber hinaus verpflichtet sich der Auftragnehmer für den Zeitraum von fünf Jahren ab Vertragsschluss, alle in der Leistungsbeschreibung sowie in dem Angebot genannten Service- und Wartungsleistungen durch sicherheitsunterwiesenes Personal zu erbringen ("Service- und Wartungsleistungen"). Aufgrund der bestehenden Architektur, insbesondere der NVLink-basierten Höchstgeschwindigkeitsvernetzung innerhalb der DGX-Systeme sowie der Infiniband-basierten Hochgeschwindigkeitsvernetzung zwischen den DGX-Systemen untereinander und mit dem Storage-Cluster, kann die UniBw M ausschließlich die neueste Generation von NVIDIA-DGX-Systemen, die DGX B300, beschaffen und in das vorhandene GPU-Cluster integrieren. Die drei NVIDIA-DGX-B300-Deep-Learning-Systeme müssen folgende Spezifikationen erfüllen: - GPUs: 8x NVIDIA Blackwell B300 Tensor Core GPUs (Gesamtspeicher GPU: 2.304 GB HBM3 (288 GB pro GPU); Rechenleistung: 72 petaFLOPS (Training), 144 petaFLOPS (Inferenz)) - GPU-Interconnect: NVLink-Switch mit 14.400 GB/s aggregierter Bandbreite - CPU: 2x Intel Xeon Platinum 6776P (128 Cores, 2,3-3,9 GHz) - System-RAM: 2 TB DDR5 (4 TB maximal) - Netzwerk (8x OSFP-Ports (800 Gb/s InfiniBand / Ethernet); 2x Dual-port QSFP112 NVIDIA BlueField-3 DPU (400 Gb/s InfiniBand / Ethernet); 1x RJ45 1Gb/s für Management; 1x RJ45 1Gb/s für BMC/IPMI) - Storage (2x 1,92 TB M.2 NVMe als RAID1 für Betriebssystem; 30 TB (8x 3,84 TB E1.S NVMe) für Datenzwischenspeicherung) - Leistungsaufnahme: max. 15 kW über 12x 230V-PSU - 19"-Rack-Gehäuse mit 10 HE, Gewicht 158 kg Für diese Hardware benötigt die UniBw M auch eine fachlich abgestimmte Wartung für fünf Jahre und den entsprechenden Software-Support mit dem folgenden Umfang: - Hardwarewartung (5 Jahre): Vor-Ort-Service, Diagnose, Austausch am nächsten Werktag; - DGX Software Support (5 Jahre): DGX OS (Betriebssystem, basiert auf Ubuntu Linux 24.04); NVIDIA AI Enterprise; NVIDIA Base Command (mit Kubernetes und Slurm) für Job- und Cluster-Management; Bereitstellung von Updates/Upgrades Im Storage-Bereich soll der Bieter den bisherigen auf HPC-Anwendungen optimierten BeeGFS-Storage um einen flexibel als Block- und File-Storage nutzbaren CEPH-Storage, bestehend aus vier Servern) ergänzen: - CPU: 2x 64 Cores, min. 2,40-4,30 GHz, 256 MB L3 Cache (z.B. AMD EPYC 9535 oder vergleichbare Intel-CPU) - System-RAM: 768 GB DDR5-6400 ECC - Storage: 2x 960 GB M.2 NVMe als RAID1 für Betriebssystem; 8x 15,3 TB U.2 NVMe (24x7-Betrieb, Datacenter-geeignet, TBW >20 PB); Erweiterungsmöglichkeit auf insgesamt 24x U.2 NVMe - Netzwerk: 1x Infiniband NDR 400 Gb/s OSFP (z.B. NVIDIA MCX75310AAS-NEAT); 1x Dual-Port Ethernet 100 Gb/s QSFP56 (z.B. Broadcom N2100G); Min. 1x RJ45 1Gb/s für Management; 1x RJ45 1Gb/s für BMC/IPMI - Redundante Stromversorgung - 19"-Rack-Gehäuse mit max. 2 HE, inkl. Rack-Schienen und Montagematerial - Gewährleistung und Garantie: 5 Jahre (Schnellaustausch von defekten Bauteilen (next business day); 5 Jahre Garantie auf Flash-Speicher und TBW
Zuschlagskriterien
1 Kriterien- price100%
Der Auftraggeber erteilt den Zuschlag auf das wirtschaftlichste Angebot. Das wirtschaftlichste Angebot ermittelt der Auftraggeber auf Grundlage des günstigsten Preises.
Zeitplan
- 26. Mai 2026Bekanntmachung veröffentlichtAuf TED publiziert