

Beschreibung
Leistungsstarke Infrastrukturen für moderne KI/ML-ModelleWie Sie abseits der Hypes resiliente, hochautomatisierte und autoskalierbare Systeme für Produktiv-Workloads aufbauen, zeigt Ihnen Oliver Liebel in diesem Wegweiser. Sie erfahren, wie Sie NVIDIAs Datacen...Leistungsstarke Infrastrukturen für moderne KI/ML-ModelleWie Sie abseits der Hypes resiliente, hochautomatisierte und autoskalierbare Systeme für Produktiv-Workloads aufbauen, zeigt Ihnen Oliver Liebel in diesem Wegweiser. Sie erfahren, wie Sie NVIDIAs Datacenter-GPUs nahtlos in Hypervisoren und moderne Container-Infrastrukturen integrieren, sie Operator-gestützt mit Kubernetes bzw. OpenShift verwalten und daraus praxistaugliche Setups machen.Betrachtet wird der ganze Infrastruktur-Stack: Von On-Premises-Installationen auf vSphere oder Cloud-Setups auf GCP und AWS über Plattform-Automation per IaaS/IaC sowie den GPU- und Network-Operatoren bis hin zu einem Ausblick auf AI End-to-End-Tool-Stacks.Aus dem Inhalt:KI/ML: Grundlagen und Use CasesInfrastruktur planen: On-Premises, Cloud oder Hybrid?Technischer Background: KI/ML mit NVIDIA-GPUsGPU-Modi: Passthrough-MIG vs. MIG-backed vGPU vs. vGPUNVIDIA-GPUs auf vSphere On-Prem implementierenNVIDIA AI EnterpriseKI/ML-Cluster mit Kubernetes und OpenShiftGPU-spezifische OperatorenGPU-Cluster mit OpenShiftVon CI/CD über GitOps zu MLOpsML-Pipelines & AI End-to-End
»Im Rahmen dieser Buchbesprechung ist es gerade einmal möglich, an der Oberfläche von Oliver Liebels Werk zu kratzen. Das liegt weniger an den rund 470 Seiten, als vielmehr am wahrlich komprimierten Inhalt, den der Autor verständlich vermittelt. Er führt Schritt für Schritt durch das Planen und Aufbauen einer eigenen ML/KI-Infrastruktur, ohne unnötige Worte zu verlieren. Auf den Punkt geschrieben, setzt er allerdings Vorkenntnisse in Sachen IT-Administration, Virtualisierung wie auch Cluster voraus.«
Vorwort
NVIDIA-GPUs in Container-Systemen Expertenwissen zur Evaluierung, Automatisierung und für die Praxis
Autorentext
Dipl.-Ing. Oliver Liebel ist LPI-zertifizierter Linux-Enterprise-Experte undoffizieller Business Partner von SUSE und Red Hat. Als Dozent, Autor, Berater und Projektleiter ist er seit vielen Jahren für namhafte Unternehmen, internationale Konzerne und Institutionen auf Landes- und Bundesebene tätig. Dabei blickt er auf 25 Jahre Berufserfahrung zurück.
Klappentext
Wie Sie abseits der Hypes resiliente, hochautomatisierte und autoskalierbare Systeme für Produktiv-Workloads aufbauen, zeigt Ihnen Oliver Liebel in diesem Wegweiser. Sie erfahren, wie Sie NVIDIAs Datacenter-GPUs nahtlos in Hypervisoren und moderne Container-Infrastrukturen integrieren, sie Operator-gestützt mit Kubernetes bzw. OpenShift verwalten und daraus praxistaugliche Setups machen.
Betrachtet wird der ganze Infrastruktur-Stack: Von On-Premises-Installationen auf vSphere oder Cloud-Setups auf GCP und AWS über Plattform-Automation per IaaS/IaC sowie den GPU- und Network-Operatoren bis hin zu einem Ausblick auf AI End-to-End-Tool-Stacks.
Aus dem Inhalt:
ML-Pipelines & AI End-to-End
Inhalt
1.1 ... Vorbemerkungen ... 28
1.2 ... Was dieses Buch sein bzw. nicht sein soll ... 31
1.3 ... Wie dieses Buch zu lesen ist ... 34
1.4 ... Thematischer Überblick - was wird in welchen Kapiteln behandelt ... 34
TEIL I. Technische Foundations zu skalierbaren KI/ML-Infrastrukturen ... 39
2.1 ... Eine kurze Einführung: KI/ML-Systeme - und alles wird gut. Oder eher nicht? ... 42
2.2 ... Use Cases für KI/ ML-Anwendungen - Auszüge ... 45
2.3 ... Fehlerfreie KI? Sicher nicht. ... 50
2.4 ... Einige Grundbegrifflichkeiten im KI/ML-Kontext ... 52
3.1 ... Bare-Metal, Virtualisierung, Containerisierung ... 65
3.2 ... Generelle Infrastruktur-Fragen: Cloud vs. On-Prem, Managed Server, hybrider Mischbetrieb, dedizierte KI-Plattformen (NVIDIA DGX) ... 69
3.3 ... Entscheidungshilfe: Reguläre GPU-Server, KI/ML-Boliden wie DGX oder alles in die Cloud? ... 85
3.4 ... Generelle GPU-Hardware-Fragen: NVIDIA vs. AMD vs. Intel vs. Googles TPU ... 86
4.1 ... NVIDIA und ML-Cluster ... 93
4.2 ... Partitionierte GPUs mit NVIDIAs vGPU und MIG ... 95
4.3 ... vGPU - Virtual GPU ... 97
4.4 ... MIG - Multi-Instance GPU ... 113
4.5 ... MIG: Multi-Tenancy revisited ... 128
4.6 ... Technische Daten und Preise ausgewählter NVIDIA Datacenter-GPUs ... 134
4.7 ... GPU-Time-Slicing und GPU-Overcommitment ... 137
4.8 ... NVLink und NVSwitch: GPU Big Blocks - Bündelung multipler GPUs ... 139
4.9 ... GPUDirect (RDMA) ... 142
4.10 ... GPU-Performance in ML-Trainings - Bare-Metal vs. vGPU/MIG ... 145
4.11 ... NVIDIA-Datacenter-Produkte: The Road Ahead ... 149
TEIL II. Implementierung von skalierbaren KI/ML-Infrastrukturen ... 151
5.1 ... Hardware-Voraussetzungen und Vorbetrachtungen (vSphere/On-Prem) ... 153
5.2 ... Preflights ... 154
5.3 ... Setup des GPU-Managers/vGPU-Host-Drivers (ESXi/vSphere 7) ... 160
5.4 ... VM-Templates mit GPUs erstellen ... 164
5.5 ... MIG-Mode auf dem Hypervisor aktivieren ... 171
6.1 ... Vorbetrachtungen ... 181
6.2 ... Motivation ... 182
6.3 ... Plattformen für NVAIE ... 183
6.4 ... NVAIE vs. vGPU vs. Free GPU Operator ... 185
6.5 ... NVAIE in der Public Cloud ... 186
6.6 ... NVAIE ist Pflicht für skalierbare ML-Cluster? ... 187
6.7 ... NVAIE als AI-End-to-End-Platform ... 187
7.1 ... Grundsätzliches: vGPU- vs. NVAIE-Lizenzen und DLS vs. CLS ... 189
7.2 ... NVIDIA Licensing System (NLS) ... 194
7.3 ... License Server: DLS vs. CLS ... 196
7.4 ... Self-Hosted License Server: DLS und Legacy License Server ... 197
7.5 ... Cloud-Hosted License Server: CLS ... 205
8.1 ... The Road so far ... 209
8.2 ... Generelle Plattform-Fragen: (Vanilla-)Kubernetes-Derivate und OpenShift im Überblick ... 211
8.3 ... Vanilla Kubernetes ... 213
8.4 ... VMwares Tanzu und das Eckige, das durchs Runde soll ... 217
8.5 ... OpenShift ... 219
8.6 ... Abschließende LTS-Betrachtungen ... 220
8.7 ... Kubernetes-Basics - Aufbau des Systems ... 222
8.8 ... Kubernetes-Basics - Ressourcen/Workloads ... 225
8.9 ... Sonstige im Folgenden verwendete, Kubernetes-spezifische Tools ... 236
9.1 ... Generelle Vorbetrachtungen zum Thema Operatoren ... 241
9.2 ... Operator-Typen und Maturitäts-Level: Helm vs. Ansible vs. Go ... 247
9.3 ... Die wichtige Rolle von Operatoren im auto-skalierbaren KI/ML-Stack ... 250
9.4 ... NVIDIAs GPU-Operator - die Architektur ... 251
9.5 ... Automatische Provisionierung eines Nodes durch den GPU-Operator ... 258
9.6 ... NVIDIAs Network-Operator - die Architektur ... 268
9.7 ... Komponenten des Network-Operators im Überblick ... 270
10.1 ... Theoretische Vorbetrachtungen ... 273
10.2 ... Konzeptionelle Vorbetrachtungen zum Setup (On-Prem mit v…