Die KI Fabrik: Innovationen und Trends bei der Inferenzökonomie episode artwork

EPISODE · Jan 18, 2026 · 7 MIN

Die KI Fabrik: Innovationen und Trends bei der Inferenzökonomie

from AI REWRITE - Wie AI alles neu erfindet ! · host Mark Zimmermann

CES 2026 wird in dieser Folge als Taktgeber für den nächsten industriellen KI‑Zyklus beschrieben, weniger als Konsumelektronikshow. OEMs, Betreiber und Partner synchronisieren Budgets, Rechenzentrums-Ausbau und Jahresroadmaps, weil „Always-on“-KI Lieferketten, Verfügbarkeit und Skalierung neu priorisiert. NVIDIA rahmt KI explizit als Industriephase: Entscheidend sind Strom, Maschinenlogik, schnelle Bereitstellung und die Fähigkeit, Intelligenz verlässlich im großen Maßstab zu liefern. Die Diskussion ordnet die Marktdynamik als Nachfrage-Schock ein. Akteure mit täglichen Nutzungsdaten planen Kapazitäten so, als wären sie dauerhaft im Rückstand. Dadurch verschiebt sich die operative Optimierung vom Training hin zur Inferenz als zentralem Kostentreiber. Inferenz läuft kontinuierlich, ist SLA-gebunden, latenzkritisch und stark kostengetrieben. Kernziel ist eine sinkende Kosten-pro-Token-Kurve bei gleichbleibender Zuverlässigkeit. Aus NVIDIA-Sicht reicht dafür keine einzelne Chipgeneration. NVIDIA positioniert sich als Rackscale-Plattform für eine „Inferenzökonomie“ und bündelt CPU, GPU, Interconnect, NIC/DPU und Ethernet als Gesamtsystem (Vera CPU, Rubin GPU, NVLink 6, ConnectX‑9, BlueField‑4, Spectrum‑6). Die Folge betont „Tokenökonomie zuerst“ und leitet daraus ein Architekturmotiv ab: Kontext wird zur aktiv gemanagten Ressource. Statt KV‑Caches ständig neu zu berechnen, sollen zusätzliche Speicher- und Orchestrierungsebenen Kontext effizient vorhalten und bewegen. Damit rücken Speicher, Bandbreite und Datenbewegung als Skalierungsgrenzen stärker in den Vordergrund als reine Rechenleistung. Als Referenzrahmen dienen Infrastruktur- und Lieferkettendeals, die Kapazität in Gigawatt statt in Serverstückzahlen messen. Genannt wird eine Absichtserklärung zwischen OpenAI und NVIDIA vom 22. September 2025 über mindestens 10 GW, mit einem Start der ersten 1‑GW‑Phase in der zweiten Jahreshälfte 2026 auf Vera Rubin sowie einer in Aussicht gestellten NVIDIA‑Investitionssumme bis 100 Milliarden US‑Dollar, gekoppelt an bereitgestellte Leistung. Parallel wird OpenAIs Multi-Sourcing-Strategie skizziert, u. a. mit AMD: Am 6. Oktober 2025 wurde eine Vereinbarung über bis zu 6 GW Instinct‑GPUs (Start ebenfalls mit 1 GW in der zweiten Jahreshälfte 2026, MI450) inklusive eines Warrants über bis zu 160 Millionen AMD‑Aktien bekannt. Ein verbleibender Engpass ist Speicher und Bandbreite. Die Folge verweist auf starke Preisbewegungen bei DRAM und knappe Kapazitäten bei HBM/DRAM, was die KI‑Lieferkette auf mehreren Stufen blockiert. Für die nächsten 12 bis 18 Monate sieht die Folge deshalb wenig Anzeichen für eine schnelle Ablösung von NVIDIA als Standardplattform, erwartet langfristig aber einen sinkenden Anteil an Inferenz-Ausgaben durch wachsende Heterogenität: alternative GPUs (z. B. AMD, getragen durch Ankerkunden), spezialisierte Chips für vorhersagbare Serving-Workloads und perspektivisch der Export interner Hyperscaler‑Chips, sobald Preis/Leistung/Verfügbarkeit stimmen. Operativ, so das Argument, ist diese Vielfalt bei Inferenz oft leichter zu handhaben als beim Training. Zum Schluss erweitert die Folge den Blick auf „Physical AI“: KI wandert aus dem Rechenzentrum in Robotik, autonome Systeme und die Umgebung. Diese Anwendungen sind besonders hart in Latenz und Zuverlässigkeit und erhöhen damit den Inferenzdruck zusätzlich. Das übergreifende Fazit lautet: CES 2026 verschiebt den Wettbewerb vom Chip‑Rennen zum Fabrik‑Rennen, in dem Energie, Lieferketten, Speicher/Bandbreite und Plattformintegration bestimmen, wer Intelligenz zuverlässig und kosteneffizient ausliefert. Quellen: OpenAI and NVIDIA announce strategic partnership to deploy 10 gigawatts of NVIDIA systems https://openai.com/index/openai-nvidia-systems-partnership/ OpenAI and NVIDIA Announce Strategic Partnership to Deploy 10 Gigawatts of NVIDIA Systems https://nvidianews.nvidia.com/news/openai-and-nvidia-announce-strategic-partnership-to-deploy-10gw-of-nvidia-systems AMD and OpenAI Announce Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html AMD and OpenAI announce strategic partnership to deploy 6 gigawatts of AMD GPUs https://openai.com/index/openai-amd-strategic-partnership/ NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI Supercomputer https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer Samsung forecasts profit to triple to record high as it rides AI boom (Reuters, 07 Jan 2026) https://www.reuters.com/world/asia-pacific/samsung-elec-estimates-208-rise-q4-operating-profit-beating-expectations-2026-01-07/

CES 2026 wird in dieser Folge als Taktgeber für den nächsten industriellen KI‑Zyklus beschrieben, weniger als Konsumelektronikshow. OEMs, Betreiber und Partner synchronisieren Budgets, Rechenzentrums-Ausbau und Jahresroadmaps, weil „Always-on“-KI Lieferketten, Verfügbarkeit und Skalierung neu priorisiert. NVIDIA rahmt KI explizit als Industriephase: Entscheidend sind Strom, Maschinenlogik, schnelle Bereitstellung und die Fähigkeit, Intelligenz verlässlich im großen Maßstab zu liefern. Die Diskussion ordnet die Marktdynamik als Nachfrage-Schock ein. Akteure mit täglichen Nutzungsdaten planen Kapazitäten so, als wären sie dauerhaft im Rückstand. Dadurch verschiebt sich die operative Optimierung vom Training hin zur Inferenz als zentralem Kostentreiber. Inferenz läuft kontinuierlich, ist SLA-gebunden, latenzkritisch und stark kostengetrieben. Kernziel ist eine sinkende Kosten-pro-Token-Kurve bei gleichbleibender Zuverlässigkeit. Aus NVIDIA-Sicht reicht dafür keine einzelne Chipgeneration. NVIDIA positioniert sich als Rackscale-Plattform für eine „Inferenzökonomie“ und bündelt CPU, GPU, Interconnect, NIC/DPU und Ethernet als Gesamtsystem (Vera CPU, Rubin GPU, NVLink 6, ConnectX‑9, BlueField‑4, Spectrum‑6). Die Folge betont „Tokenökonomie zuerst“ und leitet daraus ein Architekturmotiv ab: Kontext wird zur aktiv gemanagten Ressource. Statt KV‑Caches ständig neu zu berechnen, sollen zusätzliche Speicher- und Orchestrierungsebenen Kontext effizient vorhalten und bewegen. Damit rücken Speicher, Bandbreite und Datenbewegung als Skalierungsgrenzen stärker in den Vordergrund als reine Rechenleistung. Als Referenzrahmen dienen Infrastruktur- und Lieferkettendeals, die Kapazität in Gigawatt statt in Serverstückzahlen messen. Genannt wird eine Absichtserklärung zwischen OpenAI und NVIDIA vom 22. September 2025 über mindestens 10 GW, mit einem Start der ersten 1‑GW‑Phase in der zweiten Jahreshälfte 2026 auf Vera Rubin sowie einer in Aussicht gestellten NVIDIA‑Investitionssumme bis 100 Milliarden US‑Dollar, gekoppelt an bereitgestellte Leistung. Parallel wird OpenAIs Multi-Sourcing-Strategie skizziert, u. a. mit AMD: Am 6. Oktober 2025 wurde eine Vereinbarung über bis zu 6 GW Instinct‑GPUs (Start ebenfalls mit 1 GW in der zweiten Jahreshälfte 2026, MI450) inklusive eines Warrants über bis zu 160 Millionen AMD‑Aktien bekannt. Ein verbleibender Engpass ist Speicher und Bandbreite. Die Folge verweist auf starke Preisbewegungen bei DRAM und knappe Kapazitäten bei HBM/DRAM, was die KI‑Lieferkette auf mehreren Stufen blockiert. Für die nächsten 12 bis 18 Monate sieht die Folge deshalb wenig Anzeichen für eine schnelle Ablösung von NVIDIA als Standardplattform, erwartet langfristig aber einen sinkenden Anteil an Inferenz-Ausgaben durch wachsende Heterogenität: alternative GPUs (z. B. AMD, getragen durch Ankerkunden), spezialisierte Chips für vorhersagbare Serving-Workloads und perspektivisch der Export interner Hyperscaler‑Chips, sobald Preis/Leistung/Verfügbarkeit stimmen. Operativ, so das Argument, ist diese Vielfalt bei Inferenz oft leichter zu handhaben als beim Training. Zum Schluss erweitert die Folge den Blick auf „Physical AI“: KI wandert aus dem Rechenzentrum in Robotik, autonome Systeme und die Umgebung. Diese Anwendungen sind besonders hart in Latenz und Zuverlässigkeit und erhöhen damit den Inferenzdruck zusätzlich. Das übergreifende Fazit lautet: CES 2026 verschiebt den Wettbewerb vom Chip‑Rennen zum Fabrik‑Rennen, in dem Energie, Lieferketten, Speicher/Bandbreite und Plattformintegration bestimmen, wer Intelligenz zuverlässig und kosteneffizient ausliefert. Quellen: OpenAI and NVIDIA announce strategic partnership to deploy 10 gigawatts of NVIDIA systems https://openai.com/index/openai-nvidia-systems-partnership/ OpenAI and NVIDIA Announce Strategic Partnership to Deploy 10 Gigawatts of NVIDIA Systems https://nvidianews.nvidia.com/news/openai-and-nvidia-announce-strategic-partnership-to-deploy-10gw-of-nvidia-systems AMD and OpenAI Announce Strategic Partnership to Deploy 6 Gigawatts of AMD GPUs https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html AMD and OpenAI announce strategic partnership to deploy 6 gigawatts of AMD GPUs https://openai.com/index/openai-amd-strategic-partnership/ NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI Supercomputer https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer Samsung forecasts profit to triple to record high as it rides AI boom (Reuters, 07 Jan 2026) https://www.reuters.com/world/asia-pacific/samsung-elec-estimates-208-rise-q4-operating-profit-beating-expectations-2026-01-07/

NOW PLAYING

Die KI Fabrik: Innovationen und Trends bei der Inferenzökonomie

0:00 7:25

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

Denn sie wissen was sie wandern Manuel Andrack Alles über Premiumwanderwege, die schönsten Wege in Deutschland. Sensationelle Outdoor-Erlebnisse auf 750 Premiumwegen. Moderiert von Manuel Andrack (Sidekick der Harald Schmidt Show) und Klaus Erber (Vorsitzender des Deutschen Wanderinstituts.) AI Erik's Podcast Audio Erik Conn The AI News Podcast where we talk AI. CISO Perspectives (public) N2K Networks This season on CISO Perspectives, host Kim Jones explores some of the challenges of leading through uncertainty. We explore the complexity of the changing nature of regulation and working with the federal government, the evolution of privacy and fraud, and how emerging technologies like AI and quantum computing are changing cyber. When you don’t know what questions to ask, you’re afraid to ask, or don’t know who to ask, CISO Perspectives provides the foundation for learning in this brave new world. Lebe deine Wahrheit Larissa Geiges Was heißt es eigentlich die eigene Wahrheit zu leben? Und wie finde ich sie überhaupt?Für mich bedeutet es, die ehrlichste Version von mir selbst zu sein. All die Masken abnehmen, mit denen wir durch unser Leben gehen, den Menschen zu leben, der man im Kern ist.Wir dürfen immer entscheiden welchen Weg wir gehen. Den Eigenen oder den, den andere für uns gewählt haben. In diesem Podcast nehme ich dich mit auf meine Reise und wünsche mir, dass du viele wertvolle Impulse für dich und deinen Weg mitnehmen kannst. Ich teile mit dir welche Schritte ich auf dem Weg zu meiner Wahrheit gegangen bin und welche Prozesse ich auch heute noch durchlaufe. Ich teile meine Struggles und Ängste mit dir und meine Erkenntnise aus all den Phasen, durch die ich noch gehe und schon gegangen bin.Ich freue mich sehr, wenn du Teil hiervon bist und ich dich auf deinem Weg zu deiner ganz eigenen Wahrheit ein Stück begleiten darf.Alles Liebe für dich,deine Larissa

Frequently Asked Questions

How long is this episode of AI REWRITE - Wie AI alles neu erfindet !?

This episode is 7 minutes long.

When was this AI REWRITE - Wie AI alles neu erfindet ! episode published?

This episode was published on January 18, 2026.

What is this episode about?

CES 2026 wird in dieser Folge als Taktgeber für den nächsten industriellen KI‑Zyklus beschrieben, weniger als Konsumelektronikshow. OEMs, Betreiber und Partner synchronisieren Budgets, Rechenzentrums-Ausbau und Jahresroadmaps, weil „Always-on“-KI...

Is there a transcript available for this episode?

Yes, a full transcript is available for this episode. You can read the complete transcript on the episode page.

Can I download this AI REWRITE - Wie AI alles neu erfindet ! episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!