Vergabeentscheid
Zuschlag erteilt
Auftragsgewinner: sysGen GmbH
Auftragswert
€1.5M
Upgrade eines GPU-Clusters um drei NVIDIA DGX B300 Deep-Learning-Systeme
Was wird ausgeschrieben
Die Universität der Bundeswehr München beschafft drei NVIDIA DGX B300 Deep-Learning-Systeme sowie ein NVMe-basiertes CEPH-Storage-System zur Erweiterung eines bestehenden GPU-Clusters. Der Auftrag umfasst die Lieferung, Installation, Inbetriebnahme und einen fünfjährigen Wartungsvertrag. Das Projekt ist Teil des dtec.bw-Forschungsprojekts MORE.
Vollständige Beschreibung anzeigen
Lieferung, Installation und Inbetriebnahme von 3 NVIDIA DGX B300 Deep-Learning-Systemen einschließlich eines angebundenen NVMe-basierten CEPH-Storage-Systems sowie der notwendigen Vernetzungskomponenten, Einbindung in das bestehende Cluster, Software-Support und Wartungsverträgen.
Die Universität der Bundeswehr München erweitert ihre IT-Infrastruktur für das Forschungsprojekt MORE um drei leistungsstarke NVIDIA DGX B300 Deep-Learning-Systeme. Neben der Hardware müssen vier NVMe-basierte CEPH-Speicherserver geliefert, installiert und in das bestehende Cluster integriert werden. CEPH ist dabei ein spezielles System zur Speicherung großer Datenmengen, das besonders schnell und ausfallsicher arbeitet. Der Auftrag beinhaltet zudem einen fünfjährigen Wartungsvertrag für die gesamte Hardware und Software. Da es sich um ein hochspezialisiertes Forschungsprojekt handelt, erfolgt die Vergabe im Rahmen eines Verhandlungsverfahrens ohne Teilnahmewettbewerb.
Aufteilung in Lose
1 LotGegenstand des Auftrags ist die Erweiterung des bestehenden GPU-Clusters. Der Auftragnehmer muss drei NVIDIA DGX B300 Deep-Learning-Systeme, vier NVMe-basierte CEPH-Storage-Server sowie die notwendigen Vernetzungskomponenten liefern, installieren und mit dem bestehenden GPU Cluster vernetzen. Darüber hinaus verpflichtet sich der Auftragnehmer für den Zeitraum von fünf Jahren ab Vertragsschluss, alle in der Leistungsbeschreibung sowie in dem Angebot genannten Service- und Wartungsleistungen durch sicherheitsunterwiesenes Personal zu erbringen ("Service- und Wartungsleistungen"). Aufgrund der bestehenden Architektur, insbesondere der NVLink-basierten Höchstgeschwindigkeitsvernetzung innerhalb der DGX-Systeme sowie der Infiniband-basierten Hochgeschwindigkeitsvernetzung zwischen den DGX-Systemen untereinander und mit dem Storage-Cluster, kann die UniBw M ausschließlich die neueste Generation von NVIDIA-DGX-Systemen, die DGX B300, beschaffen und in das vorhandene GPU-Cluster integrieren. Die drei NVIDIA-DGX-B300-Deep-Learning-Systeme müssen folgende Spezifikationen erfüllen: - GPUs: 8x NVIDIA Blackwell B300 Tensor Core GPUs (Gesamtspeicher GPU: 2.304 GB HBM3 (288 GB pro GPU); Rechenleistung: 72 petaFLOPS (Training), 144 petaFLOPS (Inferenz)) - GPU-Interconnect: NVLink-Switch mit 14.400 GB/s aggregierter Bandbreite - CPU: 2x Intel Xeon Platinum 6776P (128 Cores, 2,3-3,9 GHz) - System-RAM: 2 TB DDR5 (4 TB maximal) - Netzwerk (8x OSFP-Ports (800 Gb/s InfiniBand / Ethernet); 2x Dual-port QSFP112 NVIDIA BlueField-3 DPU (400 Gb/s InfiniBand / Ethernet); 1x RJ45 1Gb/s für Management; 1x RJ45 1Gb/s für BMC/IPMI) - Storage (2x 1,92 TB M.2 NVMe als RAID1 für Betriebssystem; 30 TB (8x 3,84 TB E1.S NVMe) für Datenzwischenspeicherung) - Leistungsaufnahme: max. 15 kW über 12x 230V-PSU - 19"-Rack-Gehäuse mit 10 HE, Gewicht 158 kg Für diese Hardware benötigt die UniBw M auch eine fachlich abgestimmte Wartung für fünf Jahre und den entsprechenden Software-Support mit dem folgenden Umfang: - Hardwarewartung (5 Jahre): Vor-Ort-Service, Diagnose, Austausch am nächsten Werktag; - DGX Software Support (5 Jahre): DGX OS (Betriebssystem, basiert auf Ubuntu Linux 24.04); NVIDIA AI Enterprise; NVIDIA Base Command (mit Kubernetes und Slurm) für Job- und Cluster-Management; Bereitstellung von Updates/Upgrades Im Storage-Bereich soll der Bieter den bisherigen auf HPC-Anwendungen optimierten BeeGFS-Storage um einen flexibel als Block- und File-Storage nutzbaren CEPH-Storage, bestehend aus vier Servern) ergänzen: - CPU: 2x 64 Cores, min. 2,40-4,30 GHz, 256 MB L3 Cache (z.B. AMD EPYC 9535 oder vergleichbare Intel-CPU) - System-RAM: 768 GB DDR5-6400 ECC - Storage: 2x 960 GB M.2 NVMe als RAID1 für Betriebssystem; 8x 15,3 TB U.2 NVMe (24x7-Betrieb, Datacenter-geeignet, TBW >20 PB); Erweiterungsmöglichkeit auf insgesamt 24x U.2 NVMe - Netzwerk: 1x Infiniband NDR 400 Gb/s OSFP (z.B. NVIDIA MCX75310AAS-NEAT); 1x Dual-Port Ethernet 100 Gb/s QSFP56 (z.B. Broadcom N2100G); Min. 1x RJ45 1Gb/s für Management; 1x RJ45 1Gb/s für BMC/IPMI - Redundante Stromversorgung - 19"-Rack-Gehäuse mit max. 2 HE, inkl. Rack-Schienen und Montagematerial - Gewährleistung und Garantie: 5 Jahre (Schnellaustausch von defekten Bauteilen (next business day); 5 Jahre Garantie auf Flash-Speicher und TBW
Zuschlagskriterien
1 Kriterien- price100%
Der Auftraggeber erteilt den Zuschlag auf das wirtschaftlichste Angebot. Das wirtschaftlichste Angebot ermittelt der Auftraggeber auf Grundlage des günstigsten Preises.
Zeitplan
- 25. Juni 2026Bekanntmachung veröffentlichtAuf TED publiziert