EPISODE · Jan 18, 2026 · 7 MIN
Die KI Fabrik: Innovationen und Trends bei der Inferenzökonomie
from AI REWRITE - Wie AI alles neu erfindet ! · host Mark Zimmermann
CES 2026 wird in dieser Folge als Taktgeber für den nächsten industriellen KI‑Zyklus beschrieben, weniger als Konsumelektronikshow. OEMs, Betreiber und Partner synchronisieren Budgets, Rechenzentrums-Ausbau und Jahresroadmaps, weil „Always-on“-KI Lieferketten, Verfügbarkeit und Skalierung neu priorisiert. NVIDIA rahmt KI explizit als Industriephase: Entscheidend sind Strom, Maschinenlogik, schnelle Bereitstellung und die Fähigkeit, Intelligenz verlässlich im großen Maßstab zu liefern. Die Diskussion ordnet die Marktdynamik als Nachfrage-Schock ein. Akteure mit täglichen Nutzungsdaten planen Kapazitäten so, als wären sie dauerhaft im Rückstand. Dadurch verschiebt sich die operative Optimierung vom Training hin zur Inferenz als zentralem Kostentreiber. Inferenz läuft kontinuierlich, ist SLA-gebunden, latenzkritisch und stark kostengetrieben. Kernziel ist eine sinkende Kosten-pro-Token-Kurve bei gleichbleibender Zuverlässigkeit. Aus NVIDIA-Sicht reicht dafür keine einzelne Chipgeneration. NVIDIA positioniert sich als Rackscale-Plattform für eine „Inferenzökonomie“ und bündelt CPU, GPU, Interconnect, NIC/DPU und Ethernet als Gesamtsystem (Vera CPU, Rubin GPU, NVLink 6, ConnectX‑9, BlueField‑4, Spectrum‑6). Die Folge betont „Tokenökonomie zuerst“ und leitet daraus ein Architekturmotiv ab: Kontext wird zur aktiv gemanagten Ressource. Statt KV‑Caches ständig neu zu berechnen, sollen zusätzliche Speicher- und Orchestrierungsebenen Kontext effizient vorhalten und bewegen. Damit rücken Speicher, Bandbreite und Datenbewegung als Skalierungsgrenzen stärker in den Vordergrund als reine Rechenleistung. Als Referenzrahmen dienen Infrastruktur- und Lieferkettendeals, die Kapazität in Gigawatt statt in Serverstückzahlen messen. Genannt wird eine Absichtserklärung zwischen OpenAI und NVIDIA vom 22. September 2025 über mindestens 10 GW, mit einem Start der ersten 1‑GW‑Phase in der zweiten Jahreshälfte 2026 auf Vera Rubin sowie einer in Aussicht gestellten NVIDIA‑Investitionssumme bis 100 Milliarden US‑Dollar, gekoppelt an bereitgestellte Leistung. Parallel wird OpenAIs Multi-Sourcing-Strategie skizziert, u. a. mit AMD: Am 6. Oktober 2025 wurde eine Vereinbarung über bis zu 6 GW Instinct‑GPUs (Start ebenfalls mit 1 GW in der zweiten Jahreshälfte 2026, MI450) inklusive eines Warrants über bis zu 160 Millionen AMD‑Aktien bekannt. Ein verbleibender Engpass ist Speicher und Bandbreite. Die Folge verweist auf starke Preisbewegungen bei DRAM und knappe Kapazitäten bei HBM/DRAM, was die KI‑Lieferkette auf mehreren Stufen blockiert. Für die nächsten 12 bis 18 Monate sieht die Folge deshalb wenig Anzeichen für eine schnelle Ablösung von NVIDIA als Standardplattform, erwartet langfristig aber einen sinkenden Anteil an Inferenz-Ausgaben durch wachsende Heterogenität: alternative GPUs (z. B. AMD, getragen durch Ankerkunden), spezialisierte Chips für vorhersagbare Serving-Workloads und perspektivisch der Export interner Hyperscaler‑Chips, sobald Preis/Leistung/Verfügbarkeit stimmen. Operativ, so das Argument, ist diese Vielfalt bei Inferenz oft leichter zu handhaben als beim Training. Zum Schluss erweitert die Folge den Blick auf „Physical AI“: KI wandert aus dem Rechenzentrum in Robotik, autonome Systeme und die Umgebung. Diese Anwendungen sind besonders hart in Latenz und Zuverlässigkeit und erhöhen damit den Inferenzdruck zusätzlich. Das übergreifende Fazit lautet: CES 2026 verschiebt den Wettbewerb vom Chip‑Rennen zum Fabrik‑Rennen, in dem Energie, Lieferketten, Speicher/Bandbreite und Plattformintegration bestimmen, wer Intelligenz zuverlässig und kosteneffizient ausliefert. Quellen: OpenAI and NVIDIA announce strategic partnership to deploy 10 gigawatts of NVIDIA systems https://openai.com/index/openai-nvidia-systems-partnership/ OpenAI and NVIDIA Announce Strategic Partnership to Deploy 10 Gigawatts of NVIDIA Systems https://nvidianews.nvidia.com/news/openai-and-nvidia-announce-strategic-partnership-to-deploy-10gw-of-nvidia-systems AMD and OpenAI Announce Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html AMD and OpenAI announce strategic partnership to deploy 6 gigawatts of AMD GPUs https://openai.com/index/openai-amd-strategic-partnership/ NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI Supercomputer https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer Samsung forecasts profit to triple to record high as it rides AI boom (Reuters, 07 Jan 2026) https://www.reuters.com/world/asia-pacific/samsung-elec-estimates-208-rise-q4-operating-profit-beating-expectations-2026-01-07/
What this episode covers
CES 2026 wird in dieser Folge als Taktgeber für den nächsten industriellen KI‑Zyklus beschrieben, weniger als Konsumelektronikshow. OEMs, Betreiber und Partner synchronisieren Budgets, Rechenzentrums-Ausbau und Jahresroadmaps, weil „Always-on“-KI Lieferketten, Verfügbarkeit und Skalierung neu priorisiert. NVIDIA rahmt KI explizit als Industriephase: Entscheidend sind Strom, Maschinenlogik, schnelle Bereitstellung und die Fähigkeit, Intelligenz verlässlich im großen Maßstab zu liefern. Die Diskussion ordnet die Marktdynamik als Nachfrage-Schock ein. Akteure mit täglichen Nutzungsdaten planen Kapazitäten so, als wären sie dauerhaft im Rückstand. Dadurch verschiebt sich die operative Optimierung vom Training hin zur Inferenz als zentralem Kostentreiber. Inferenz läuft kontinuierlich, ist SLA-gebunden, latenzkritisch und stark kostengetrieben. Kernziel ist eine sinkende Kosten-pro-Token-Kurve bei gleichbleibender Zuverlässigkeit. Aus NVIDIA-Sicht reicht dafür keine einzelne Chipgeneration. NVIDIA positioniert sich als Rackscale-Plattform für eine „Inferenzökonomie“ und bündelt CPU, GPU, Interconnect, NIC/DPU und Ethernet als Gesamtsystem (Vera CPU, Rubin GPU, NVLink 6, ConnectX‑9, BlueField‑4, Spectrum‑6). Die Folge betont „Tokenökonomie zuerst“ und leitet daraus ein Architekturmotiv ab: Kontext wird zur aktiv gemanagten Ressource. Statt KV‑Caches ständig neu zu berechnen, sollen zusätzliche Speicher- und Orchestrierungsebenen Kontext effizient vorhalten und bewegen. Damit rücken Speicher, Bandbreite und Datenbewegung als Skalierungsgrenzen stärker in den Vordergrund als reine Rechenleistung. Als Referenzrahmen dienen Infrastruktur- und Lieferkettendeals, die Kapazität in Gigawatt statt in Serverstückzahlen messen. Genannt wird eine Absichtserklärung zwischen OpenAI und NVIDIA vom 22. September 2025 über mindestens 10 GW, mit einem Start der ersten 1‑GW‑Phase in der zweiten Jahreshälfte 2026 auf Vera Rubin sowie einer in Aussicht gestellten NVIDIA‑Investitionssumme bis 100 Milliarden US‑Dollar, gekoppelt an bereitgestellte Leistung. Parallel wird OpenAIs Multi-Sourcing-Strategie skizziert, u. a. mit AMD: Am 6. Oktober 2025 wurde eine Vereinbarung über bis zu 6 GW Instinct‑GPUs (Start ebenfalls mit 1 GW in der zweiten Jahreshälfte 2026, MI450) inklusive eines Warrants über bis zu 160 Millionen AMD‑Aktien bekannt. Ein verbleibender Engpass ist Speicher und Bandbreite. Die Folge verweist auf starke Preisbewegungen bei DRAM und knappe Kapazitäten bei HBM/DRAM, was die KI‑Lieferkette auf mehreren Stufen blockiert. Für die nächsten 12 bis 18 Monate sieht die Folge deshalb wenig Anzeichen für eine schnelle Ablösung von NVIDIA als Standardplattform, erwartet langfristig aber einen sinkenden Anteil an Inferenz-Ausgaben durch wachsende Heterogenität: alternative GPUs (z. B. AMD, getragen durch Ankerkunden), spezialisierte Chips für vorhersagbare Serving-Workloads und perspektivisch der Export interner Hyperscaler‑Chips, sobald Preis/Leistung/Verfügbarkeit stimmen. Operativ, so das Argument, ist diese Vielfalt bei Inferenz oft leichter zu handhaben als beim Training. Zum Schluss erweitert die Folge den Blick auf „Physical AI“: KI wandert aus dem Rechenzentrum in Robotik, autonome Systeme und die Umgebung. Diese Anwendungen sind besonders hart in Latenz und Zuverlässigkeit und erhöhen damit den Inferenzdruck zusätzlich. Das übergreifende Fazit lautet: CES 2026 verschiebt den Wettbewerb vom Chip‑Rennen zum Fabrik‑Rennen, in dem Energie, Lieferketten, Speicher/Bandbreite und Plattformintegration bestimmen, wer Intelligenz zuverlässig und kosteneffizient ausliefert. Quellen: OpenAI and NVIDIA announce strategic partnership to deploy 10 gigawatts of NVIDIA systems https://openai.com/index/openai-nvidia-systems-partnership/ OpenAI and NVIDIA Announce Strategic Partnership to Deploy 10 Gigawatts of NVIDIA Systems https://nvidianews.nvidia.com/news/openai-and-nvidia-announce-strategic-partnership-to-deploy-10gw-of-nvidia-systems AMD and OpenAI Announce Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html AMD and OpenAI announce strategic partnership to deploy 6 gigawatts of AMD GPUs https://openai.com/index/openai-amd-strategic-partnership/ NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI Supercomputer https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer Samsung forecasts profit to triple to record high as it rides AI boom (Reuters, 07 Jan 2026) https://www.reuters.com/world/asia-pacific/samsung-elec-estimates-208-rise-q4-operating-profit-beating-expectations-2026-01-07/
NOW PLAYING
Die KI Fabrik: Innovationen und Trends bei der Inferenzökonomie
No transcript for this episode yet
Similar Episodes
Mar 31, 2026 ·54m
Mar 27, 2026 ·14m
Mar 24, 2026 ·42m
Mar 20, 2026 ·42m
Mar 17, 2026 ·41m
Mar 13, 2026 ·44m