#136 - Prompt Engineering 2.0 — Warum 90% eurer KI-Rechnung Müll ist episode artwork

EPISODE · May 25, 2026 · 39 MIN

#136 - Prompt Engineering 2.0 — Warum 90% eurer KI-Rechnung Müll ist

from Das KI-Kochbuch mit Malcolm Werchota · host Malcolm Werchota

Erinnert ihr euch noch an euren ersten Telefonrechnungsschock? Zwei Wochen Dubai, zurück zu Hause, plötzlich 1.000 Euro statt 30. Dasselbe Handy, dasselbe Verhalten — aber ein komplett anderes Abrechnungsmodell.Genau das passiert gerade in jeder Firma in DACH. Eure CTOs sitzen wie dieser Vater am Küchentisch und denken: "Wir zahlen 30 Euro im Monat für Copilot-Lizenzen." Und dann öffnet jemand still die API-Rechnung. Und sie ist nicht 30 Euro. Sie ist 1.500. Pro Mitarbeiter. Pro Monat.Andrej Karpathy — Co-Founder OpenAI, ex-Tesla AI-Chef — bringt es in einem aktuellen Post auf den Punkt: "90% eurer KI-Rechnung zahlt ihr für Kontext, den ihr nie braucht." Stellt euch das vor: ihr lasst ein Haus für 100.000 Euro bauen. Der Bauleiter sagt: "Malcolm, das macht 1 Million." — "Warum 10× mehr?" — "Naja, der Kontext..."Genau das macht eure Firma gerade mit jeder einzelnen KI-Abfrage.📚 Wie wir hierher gekommen sind2022-2023: Prompt Engineering. Gehälter 200.000-500.000 Dollar. "Bitte und Danke", "denke Schritt für Schritt", Chain of Thought. Funktioniert teilweise heute noch.2024: Job-Titel "Prompt Engineer" verschwindet. Karpathy bringt Context Engineering — die delikate Kunst, der KI im richtigen Kontextfenster die richtigen Informationen zu liefern.2026: Jetzt brauchen wir Prompt Engineering 2.0 — nicht für bessere Antworten, sondern für 10× günstigere Antworten.🔧 Acht messbare Token-Hebel, die kein Mittelständler nutztChunking — große Dokumente in semantische Stücke teilen, statt 100 PDFs in einer Abfrage zu verbrennenGrab-before-Fetch — der KI gezielt sagen, welches Buch sie aus der Bibliothek holen soll, statt sie 100 lesen zu lassenPrompt Caching — bei stabilen Präfix-Anweisungen zahlt ihr nur 10% (Anthropic). Erste Cache-Speicherung kostet 90%, jeder Wiederabruf 10%. Bei einer 17-Seiten-Compliance-Anweisung = riesiger Hebel.Skill.MD / Agent.MD — Arbeitsanweisungen für die KI. Karpathy hat es ausgerechnet: ohne Skill.MD = 4 Dollar pro Session. Mit Skill.MD = 30 Cent. Faktor 13.Compaction — bei langen Sessions selbst kompaktieren, nicht warten bis die KI das tut. Funktioniert in Claude Code, Codex etc.Model Routing — Haiku 5$/1M Tokens (Klassifikation, Formatieren), Sonnet 15$ (Code Review), Opus 25$ (Architektur). Fahrt nicht den Bugatti zum Einkaufen.Default Model wechseln — eure Devs haben das teuerste Modell als Standard. Sonnet reicht in 85% der Fälle.Auto-Context-Loading + Prompt-Audits durch eine zweite KI = automatischer Context-Bloat-Killer🚦 Die Stromrechnungs-Analogie für euren VorstandPrivat: 20-Euro-Glühbirne. Wenn ihr sie 24h anlasst, ist es egal. Stromrechnung 800 oder 850 — wurscht.Aber jetzt: Fabrikhalle. 50.000 Lampen. Drei Schichtbetrieb. Plus Anlagen, Serverraum. Plötzlich 5 Millionen Euro Stromrechnung. Genau das ist eure KI-Rechnung 2026. Ihr habt zwei Jahre lang KI gekauft, ohne den Stromzähler einzubauen.Wenn ich als Berater reinkomme und sage "Projekt für 1 Million Euro, um eure Prompt-Sachen zu verbessern" — und ihr aus 5 Millionen runter auf 500.000 kommt? Klar man, das ist Faktor 10.📟 Cloud-Meter — der physische Stromzähler für eure KIJemand hat sich einen kleinen Würfel mit Touchscreen gebaut, der in Echtzeit zeigt, wie viel Geld er aktuell für Tokens verbrennt. Schreibtisch neben dem Laptop. GitHub-Repo, viral auf TikTok. Ein Mensch hat einen Stromzähler für KI gebaut, weil er auch überfordert ist.🎯 Drei Montag-Aktionen1. Subscription Audit: Habt ihr Claude Code + Codex + Cursor + Lovable Pro + ChatGPT Plus + Gemini parallel? Lasst eine KI auflisten, wo Doppelausgaben sind. Bei werchota.ai sparen wir monatlich tausende, weil wir schnell abonnieren und schnell kündigen.2. Skill.MDs bauen: Sobald ihr einen Prozess 2× macht, schreibt eine Skill.MD. Bei werchota haben wir ein Skill-Repository auf GitHub. Jede Skill = bessere Qualität + 13× weniger Tokens.3. Default Model wechseln: Geht in Claude/Codex/Cursor, ändert das Default Model auf Sonnet (oder kleiner). Ihr werdet weniger "max out" bekommen — und ihr könnt viel länger arbeiten.💬 Die Frage, die jeder Vorstand stellen können muss"Wie viel kostet bei uns ein Token?"Eure CFOs wissen die Stromrechnung. Sie kennen den Goldpreis. Den Benzinpreis. Den Milchpreis bei Kaufland. Den Token-Preis kennen sie nicht. Und sie wissen auch nicht, dass sie ihn kennen sollten.Das ist die Sprache, die wir lernen müssen. KI-Sprache. Wer sie zuerst spricht, gewinnt.⏱️ Timestamps00:00 — Cold Open: Die 1.000-Euro-Roaming-Rechnung aus Dubai03:30 — Zwei Welten: Privat-Flatrate vs. Enterprise-API06:00 — Karpathy: 90% eurer Rechnung ist Müll-Kontext08:30 — Retro: Prompt Engineering 2022 → Context Engineering 2024 → Prompt Engineering 2.013:00 — Chunking + Grab-before-Fetch16:00 — Prompt Caching: 10% statt 100% (Anthropic-Hebel)19:00 — Skill.MD / Agent.MD — Faktor 1322:00 — Compaction25:00 — Stromrechnung-Analogie: 5 Mio. Token-Kosten ohne Zähler28:00 — Cloud-Meter — der physische Token-Zähler30:00 — Model Routing: Haiku/Sonnet/Opus — Skoda, Ferrari, Bugatti33:00 — Drei Montag-Aktionen: Subscription Audit, Skill.MDs, Default Model37:00 — Die Frage für jeden Vorstand: "Wie viel kostet ein Token?"🎙️ Über den HostMalcolm Werchota leitet KI-Adoptionsprogramme für Unternehmen in ganz Europa. Nach über 15 Jahren bei Novartis und Schlumberger heute Fokus: KI ohne Bullshit. Dozent an ESADE und HSLU. Studiert in Leoben.🚀 Ressourcen für Führungskräfte📚 Chief AI Academy — KI für Entscheider👥 AI Leadership Community🌐 werchota.ai📬 KontaktLinkedIn: linkedin.com/in/malcolmwerchotaE-Mail: [email protected]📰 QuellenAndrej Karpathy — Twitter/X-Post zu Context Engineering & Skill.MD Faktor 13Anthropic — Prompt Caching Pricing (10%/90% Split)Anthropic — Modellpreise Haiku / Sonnet 4.6 / Opus 4.7GitHub — Cloud-Meter Open-Source-Projekt (viral auf TikTok)Werchota.ai — interne Skill Repository & Subscription AuditsTags: #PromptEngineering #ContextEngineering #Karpathy #Anthropic #Claude #ClaudeCode #Codex #Tokens #AICost #PromptCaching #SkillMD #ModelRouting #DACH #Mittelstand #CFO #CTO #werchota #ChiefAIAcademy #DasKIKochbuch

Karpathys These: 90% eurer KI-Rechnung zahlt ihr für Kontext, den ihr nie braucht. Die 1.000-Euro-Roaming-Rechnung aus Dubai erklärt, warum eure CTOs gerade wie Väter am Küchentisch sitzen — und die API-Rechnung sie sprachlos macht. Acht messbare Token-Hebel (Chunking, Prompt Caching, Skill.MDs, Model Routing) + drei Montag-Aktionen. Plus: warum euer CFO den Token-Preis kennen muss.

NOW PLAYING

#136 - Prompt Engineering 2.0 — Warum 90% eurer KI-Rechnung Müll ist

0:00 39:20

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

Flottengeflüster ALD Automotive Österreich | LeasePlan Beim Flottengeflüster powered by ALD Automotive | LeasePlan präsentieren Jörg Janik und Peter Gutenbrunner alle zwei Wochen spannende Informationen rund um das Thema nachhaltige Mobilität. Beide beschäftigen sich schon lange mit der Thematik und bringen umfangreiches Fachwissen mit. Sollten sie aber doch einmal nicht weiter wissen, werden unsere Expert*innen hinzugezogen, die ihnen gerne mit Rat und Tat zur Seite stehen. Lebe deine Wahrheit Larissa Geiges Was heißt es eigentlich die eigene Wahrheit zu leben? Und wie finde ich sie überhaupt?Für mich bedeutet es, die ehrlichste Version von mir selbst zu sein. All die Masken abnehmen, mit denen wir durch unser Leben gehen, den Menschen zu leben, der man im Kern ist.Wir dürfen immer entscheiden welchen Weg wir gehen. Den Eigenen oder den, den andere für uns gewählt haben. In diesem Podcast nehme ich dich mit auf meine Reise und wünsche mir, dass du viele wertvolle Impulse für dich und deinen Weg mitnehmen kannst. Ich teile mit dir welche Schritte ich auf dem Weg zu meiner Wahrheit gegangen bin und welche Prozesse ich auch heute noch durchlaufe. Ich teile meine Struggles und Ängste mit dir und meine Erkenntnise aus all den Phasen, durch die ich noch gehe und schon gegangen bin.Ich freue mich sehr, wenn du Teil hiervon bist und ich dich auf deinem Weg zu deiner ganz eigenen Wahrheit ein Stück begleiten darf.Alles Liebe für dich,deine Larissa Ich will Köpfe rollen seh'n ! Lieder-Fuzzi Ein Song gegen das Vergessen der kranken Corona-Zeit. Das denkt Deutschland – Über Meinung und Medien WELT Wie unterscheidet sich die Generation Z tatsächlich vom Rest der Bevölkerung? Wendet sich die Politik von den Menschen ab, oder die Menschen sich von der Politik? Und tickt die Bevölkerung in Ost- und Westdeutschland immer noch unterschiedlich?In "Das denkt Deutschland" sprechen Thorsten Thierhoff, Geschäftsführer des Meinungsforschungsinstitutes forsa, und WELT-Chefredakteur Ulf Poschardt jede Woche über das Auseinanderdriften von öffentlicher und veröffentlichter Meinung. Anhand von konkreten Themen und auf Basis von empirischen Befragungsdaten widmen sie sich in jeder Folge den aktuellen Debatten."Das denkt Deutschland - Über Meinung und Medien" erscheint jeden Mittwoch um 16 Uhr – überall da, wo es Podcast gibt und auf welt.de/dasdenktdeutschland. Ein Podcast von forsa und WELT.

Frequently Asked Questions

How long is this episode of Das KI-Kochbuch mit Malcolm Werchota?

This episode is 39 minutes long.

When was this Das KI-Kochbuch mit Malcolm Werchota episode published?

This episode was published on May 25, 2026.

What is this episode about?

Erinnert ihr euch noch an euren ersten Telefonrechnungsschock? Zwei Wochen Dubai, zurück zu Hause, plötzlich 1.000 Euro statt 30. Dasselbe Handy, dasselbe Verhalten — aber ein komplett anderes Abrechnungsmodell.Genau das passiert gerade in jeder...

Can I download this Das KI-Kochbuch mit Malcolm Werchota episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!