How many episodes does Prompt und Antwort have?

Prompt und Antwort currently has 50 episodes available on PodParley. New episodes are automatically indexed when they're published to the podcast feed.

What is Prompt und Antwort about?

Ein KI-generierter Podcasts rund um die Entwicklung von und mit KI. News, Updates und interessante Hintergrundinformationen für den professionellen Einsatz von KI hinaus. Ohne Hype und Buzzwords.Die KI-Gilde ist ein Angebot der YnotBetter UG.

How often does Prompt und Antwort release new episodes?

Prompt und Antwort has 50 episodes. Check the episode list to see recent publication dates and frequency.

Where can I listen to Prompt und Antwort?

You can listen to Prompt und Antwort on PodParley by clicking any episode. We provide an embedded audio player for direct listening, and you can also subscribe via your preferred podcast app using the RSS feed.

Who hosts Prompt und Antwort?

Prompt und Antwort is created and hosted by KI-Gilde.

Prompt und Antwort Podcast - All Episodes

166

161 - Videos programmieren

In dieser Folge analysieren wir, wie KI-Agenten mit dem Tool Remotion massenhaft personalisierte Videos programmieren. Wir erklären, wie aus reinem React-Code durch Headless Chromium und FFmpeg fertige MP4-Dateien entstehen.Die wichtigsten Themen:Skalierbarkeit & Lizenzen: Warum der Ansatz ideal für tausende dynamische Videos ist, die Nutzung ab vier Personen im Team jedoch eine kommerzielle Lizenz erfordert.KI-Skills statt Halluzinationen: Wie Agenten vorgefertigte Bibliotheken (wie Spring Presets oder GSAP) ansteuern, um Animationen fehlerfrei umzusetzen.Achtung beim "Happy"-Skill: Wir decken auf, warum dieser Klon im deutschsprachigen Raum beliebt ist, aber wegen chinesischer Text-to-Speech-Dienste und dem Fehlen nativer Untertitel rechtliche Hürden birgt.Der saubere Workflow: Wie Entwickler mit dem offiziellen Remotion-Dev-Skill und sicheren APIs (wie ElevenLabs) maßgeschneiderte, rechtssichere Workflows für Corporate-Videos bauen können.

May 13, 2026

7m

165

160 - eigener Deep-Research-Assistent

In dieser Folge des KI-Gilde Podcasts nehmen wir das Open-Source-Projekt "Local Deep Research" unter die Lupe. Wir erklären kurz und prägnant, wie autonome Recherche-Agenten selbstständig das Web und lokale Dokumente durchforsten, Informationen verknüpfen und strukturierte Berichte erstellen.Die Themen dieser Folge:Lokale Power & absolute Privatsphäre: Wie das System komplett lokal auf einer Standard-Grafikkarte (wie einer RTX 3090) läuft, Cloud-Kosten spart und durch Verschlüsselung höchste Datensicherheit bietet.Die Technik unter der Haube: Der Einsatz von Langraph als effizientes Kurzzeitgedächtnis gegen Kontexterschöpfung und die Nutzung einer lokalen RAG-Integration für eigene Dokumente.Aktuelle Stolpersteine: Welche praktischen Hürden noch existieren – von JSON-Formatierungsfehlern bei kleinen Modellen über die komplexe Einrichtung der Metasuche SearxNG bis hin zur Abhängigkeit von einem einzigen Entwickler.Die provokante Abschlussfrage: Haben diese kleinen, cleveren lokalen Agenten das Potenzial, riesige und teure Cloud-KIs der Tech-Giganten schon bald überflüssig zu machen?

May 11, 2026

7m

164

159 - Agenten verstehen: Selbstoptimierung

KI-Gilde Podcast 159: Agenten verstehen GEPA – Wie KI ihre eigenen Regeln umschreibtWie verbessert sich eine KI eigentlich selbst? In dieser Folge entzaubern wir den Mythos der autonomen KI-Evolution am Beispiel des neuen Hermes-Agenten-Updates. Das Geheimnis dahinter ist GEPA (Genetic Pareto Prompt Evolution).Statt blind Parameter auf teuren Serverfarmen anzupassen, lernt die KI hier durch die sprachliche Reflexion ihrer eigenen Fehler und schreibt ihre Arbeitsanweisungen (Skill Files) einfach selbst als Textdokumente um. Wir erklären anschaulich, wie die drei Säulen von GEPA funktionieren:Reflektierende VeränderungPareto-Selektion für mehr VielfaltEvolutionäre StammbäumeErfahre, warum dieser Ansatz mit 2 bis 10 US-Dollar pro Lauf extrem günstig und durch einfache Textdateien vollkommen transparent ist. Außerdem klären wir, warum unvollständige Testdaten die größte Gefahr (Goodharts Gesetz) bei dieser Methode bergen und stellen die provokante Frage: Ist der hochbezahlte Beruf des Prompt Engineers bald Geschichte?

May 8, 2026

23m

163

158 - Modell gegen Prompt Injection

In dieser Folge des KI Gilde Podcasts geht es um die unsichtbare Gefahr von Prompt Injections bei der Automatisierung von KI-Systemen. Wir erklären, wie Angreifer durch sogenannte indirekte Injections versteckte Schadbefehle in scheinbar harmlosen PDFs oder Webseiten platzieren, um die KI zu manipulieren.Als Lösung stellen wir das spezialisierte Wächtermodell Wolf-Defender vor. Dieses extrem kompakte Modell ist unter 300 MB groß, lässt sich lokal ohne Latenz ausführen und fungiert als vorgeschaltetes Schutzschild für autonome KI-Agenten und RAG-Systeme. Durch ein großes Kontextfenster von 2048 Token und das Training mit "Hard Negatives" erkennt der Wolf-Defender echte Angriffe zuverlässig selbst tief in Dokumenten, ohne bei harmlosen Nutzeranfragen unnötige Fehlalarme auszulösen. Erfahre, warum blindes Vertrauen in externe Daten nicht mehr ausreicht und wie dieses Modell deine KI-Dienste effektiv absichert.

May 6, 2026

7m

162

157 - Agenten in Meetings

KI-Gilde Podcast Folge 157: Der Hermes Agent in Google MeetIn dieser Episode analysieren wir das neue Curator-Release (v0.12.0) des Hermes Agenten. Erfahrt, wie die KI dank "Headless Browser Automation" als unsichtbarer Teilnehmer direkt in eure Google Meets einzieht und sich bei wichtigen Themen sogar live zu Wort meldet.Die Highlights der Folge:Technik & Audio: Wie das System Echos durch Duplex-Audio direkt auf Hardwareebene verhindert und wie die KI per Zuruf sofort stoppt.Absolute Datensicherheit: Warum 100 % lokale Verarbeitung auf der eigenen Hardware (Transkription & Sprachmodell) keine sensiblen Firmendaten in die Cloud leckt.Semantisches Gedächtnis: Wie der Agent persönliche Arbeitspräferenzen lernt und automatisiert Tools wie Jira und Slack aus dem Gespräch heraus befüllt.Autonomous Curator: Der neue "unsichtbare Hausmeister", der alle 7 Tage veraltete Befehle aufräumt und das System im Hintergrund optimiert.Werden in Zukunft nur noch unsere KIs die Meetings untereinander aushandeln? Hört rein!

May 4, 2026

5m

161

156 - Agenten verstehen: externe Orchestrierung

KI-Agenten dirigieren: Multica vs. PaperclipIn dieser Folge des KI Gilde Podcasts verlassen wir den Mikrokosmos einzelner KIs und blicken auf die Orchestrierungsebene. Wie steuert man hunderte digitale Arbeiter, ohne im Chaos zu versinken? Wir vergleichen zwei radikal unterschiedliche Philosophien:Multica: Der Ansatz der kontrollierten Zusammenarbeit ("Human in the Loop"). Multica agiert wie ein digitaler Kollege, der sich Aufgaben zieht, in einer sicheren lokalen Umgebung arbeitet und bei dem jeder Schritt zwingend vom Menschen freigegeben werden muss.Paperclip: Das vollautonome, digitale Firmenimperium. Hier arbeiten Dutzende Agenten in strengen Hierarchien komplett ohne menschliches Eingreifen zusammen. Ein Rhythmus aus Schlaf- und Wachphasen (das "Herzschlagparadigma") sowie strikte Programmierregeln verhindern dabei das finanzielle und strukturelle Chaos.Die spannende Frage dieser Folge: Sehen wir KI als kontrollierbare Erweiterung unserer Fähigkeiten (Multica) oder als autarkes System, das ganze Wirtschaftskreisläufe neu erfindet (Paperclip)?

May 1, 2026

16m

160

155 - Claude Live Artefacts

In Folge 155 des KI-Gilde Podcasts zerlegen wir die Technik hinter "Claude Live Artefacts" und diskutieren, ob Claude Desktop zum neuen Betriebssystem wird. Wir vergleichen dabei zwei zentrale Ansätze:Generative UI: Die KI programmiert aus reinen Daten (via MCP) zur Laufzeit eigenständig interaktive Frontends wie Dashboards, die durch striktes Sandboxing und sogenannte "Claude Deception" isoliert und abgesichert werden.Server-Driven UI (SEP 1865): Externe Server liefern fertige, deterministische UI-Elemente, die sicher und ohne Kontextverlust direkt im Chatfenster angezeigt werden, was besonders für große Unternehmen höchste Markentreue und Sicherheit garantiert.Hör rein und erfahre, warum diese Entwicklung klassische Betriebssysteme wie Windows oder macOS bald zu reinen Bootloadern degradieren könnte.

Apr 29, 2026

6m

159

154 - LLMs automatisiert knacken

Sicherheitsleitplanken bei KIs sind keine harten Grenzen, sondern eine gefährliche Illusion. In dieser Folge zeigen wir, wie Forscher von Palo Alto und Unit 42 mithilfe von genetischen Algorithmen und automatisiertem Prompt-Fuzzing jedes bekannte Large Language Model (LLM) erfolgreich knacken konnten.Wir erklären die Mechanismen dahinter und diskutieren folgende Kernpunkte:Automatisierte Jailbreaks: Wie Angreifer in wenigen Minuten dutzende Sicherheitslücken ausnutzen.Gefahr durch offene Modelle: Warum sich Schutzmechanismen bei lokalen Modellen einfach heraustrainieren lassen.Indirect Prompt Injection: Wie über externe Dokumente (RAG) unsichtbare Befehle in die KI eingeschleust werden können, was OWASP zur Top-Bedrohung für 2025 erklärt hat.

Apr 27, 2026

6m

158

153 - Agenten verstehen: Warum Agenten am Multi-Turn scheitern

In Folge 12 von "Agenten verstehen" widmen wir uns lokalen Modellen wie Gemma 4 und Qwen 3.6. Wir klären, warum lokale Agenten trotz gigantischer Kontextfenster bei längeren Dialogen (Multi-Turn) oft völlig den Faden verlieren und wie wir das architektonisch lösen.Die Themen dieser Folge:Der Multi-Turn-Kollaps: Warum Sprachmodelle durch "Aufmerksamkeitsverfall" (Attention Decay) oft schon nach fünf Runden ihre eigenen Regeln vergessen und voreilig halluzinieren, anstatt bei Unklarheiten nachzufragen.Dense vs. MoE: Warum "Mixture of Experts"-Modelle bei längeren Unterhaltungen durch mathematische Routing-Probleme einbrechen und kleinere "Dense"-Modelle oft deutlich stabiler bleiben.Hybride Pipelines: Warum ein Sprachmodell keine kritischen Aktionen mehr allein ausführen darf und wie strikte Code-Schichten (Konsistenz-Gates) das System vor dem Chaos bewahren.Gedächtnis & Tests: Wie "Context Repacking" (kompakte Briefings statt langer Chat-Verläufe) den Kontextverfall stoppt und wie man sein Modell durch zerschnittene Aufgaben ("Sharded Simulation") einem echten Stresstest unterzieht.

Apr 24, 2026

18m

157

152 - KI-Modellbezeichnungen

In dieser Folge des KI-Gilde Podcasts entschlüsseln wir die kryptischen Dateinamen lokaler KI-Modelle, die auf den ersten Blick wie zufällige Zeichenketten wirken.Am Beispiel eines komplexen Namens wie "Qwen3.6-35B-A3B-UD-IQ4_NL_XL.gguf" erklären wir die genaue Bauanleitung hinter den Modellen:Parameter und Mixture of Experts: Was der Unterschied zwischen den gesamten 35 Milliarden und den aktiv genutzten 3 Milliarden Parametern ist.Intelligente Komprimierung: Wie nichtlineare Quantisierung funktioniert, um den gigantischen Speicherbedarf (VRAM) massiv zu senken, ohne dass das Modell seine logischen Fähigkeiten verliert.Das GGUF-Format: Warum dieses universelle Dateiformat Hardwaregrenzen austrickst und Abstürze verhindert, indem es bei VRAM-Mangel nahtlos den Hauptprozessor (CPU) und normalen Arbeitsspeicher zur Hilfe nimmt.

Apr 22, 2026

5m

156

151 - PromptFoo

In dieser Episode des KI-Gilde Podcasts dreht sich alles um PromptFoo und die systematische Evaluierung von Large Language Models (LLMs). Statt Prompts nur nach Bauchgefühl zu testen, ermöglicht PromptFoo eine automatisierte Matrixevaluierung durch harte Regeln und semantische Prüfungen, bei denen ein anderes Sprachmodell als strenger Schiedsrichter fungiert.Wir beleuchten zudem, wie der „PromptFoo Agent Skill“ autonome Agenten absichert, indem er architektonische Leitplanken setzt und das System mit synthetischen Stresstests auf die Probe stellt. Erfahre außerdem, wie intelligentes Caching in der Pipeline massiv Zeit und Kosten spart und wie das Framework in hochregulierten Bereichen – von simulierten Hackerangriffen (Red Teaming) bis hin zur Vermeidung von Falschinformationen im Gesundheitswesen – für Sicherheit sorgt.Hör rein und erfahre, wie die Prompt-Entwicklung von einer kreativen Kunstform zu einer knallharten und messbaren Ingenieursdisziplin wird!

Apr 20, 2026

5m

155

150 - Agenten verstehen: Kommunikationskanäle

Willkommen zur 11. Folge der Serie "Agenten verstehen" im KI Gilde Podcast. In dieser Episode dreht sich alles um die Kommunikation mit autonomen KI-Agenten (wie dem Hermes-Agenten) und deren Anbindung an Alltags-Messenger wie WhatsApp, Slack oder Telegram.Wir beleuchten die wichtigsten technischen Hürden und eleganten Lösungen moderner Agenten-Systeme:Gateway-Architekturen: Wie eine "universelle Telefonzentrale" mit Simultübersetzer Agenten plattformübergreifend nutzbar macht und den Kontext über verschiedene Apps hinweg behält.Asynchrone Verarbeitung & WhatsApp: Wie das gnadenlose 20-Sekunden-Limit von Meta umgangen wird und Agenten komplexe Aufgaben im Hintergrund erledigen, ohne deinen Chat zu blockieren.Paralleles Arbeiten: Die clevere Delegierung von Teilaufgaben an stark spezialisierte, isolierte Sub-Agenten.Maximale Sicherheit: Warum KI-Agenten zwingend in gekapselten lokalen Docker-Sandboxes arbeiten müssen, um dein Hauptsystem durch rückstandslos löschbare virtuelle Maschinen zu schützen.Rekursives Lernen: Der Ausblick auf Agenten, die aus eigenen Analysen lernen, sich kontinuierlich selbst neue Werkzeuge programmieren und so unsere künftige Rolle als reine Auftraggeber in Frage stellen.

Apr 17, 2026

28m

154

149 - deathbyclawd.com

In dieser Folge des KI Gilde Podcasts analysieren wir den Überlebensscanner deathbyclawd.com. Diese Seite berechnet einen sogenannten "Todespunktestand", der vorhersagt, wie schnell große Sprachmodelle herkömmliche SaaS-Produkte (Software as a Service) ersetzen werden.Die Kernthemen der Episode:Das Ende der Benutzeroberfläche: Warum viele teure Software-Abonnements im Kern nur simple Datenbankabfragen sind und künftig durch KI ersetzt werden.Wer überlebt und wer zittert: Während Firmen mit physischer Infrastruktur (wie Google) sicher sind, geraten Branchenriesen wie Intuit, Salesforce oder Notion massiv unter Druck.Vibe Coding: Wie Nutzer ohne jegliche Programmierkenntnisse in Sekundenschnelle per Sprachbefehl ihre eigenen, passgenauen Werkzeuge erschaffen.Kollaps der Geschäftsmodelle: Warum das klassische Pro-Nutzer-Lizenzmodell stirbt, wenn autonome Agenten die Arbeit von mehreren Mitarbeitern übernehmen und klassische Software zur reinen Datenablage wird.Am Ende steht die provokante Frage: Welchen Wert haben wir noch auf dem Arbeitsmarkt, wenn unsere Hauptfähigkeit bisher darin bestand, genau diese sterbenden Programme zu bedienen?

Apr 15, 2026

6m

153

148 - LiteLLM

In dieser Episode des KI Gilde Podcasts stellen wir das Tool LiteLLM vor, eine zentrale Vermittlungsstelle, die speziell für Entwickler und Plattformteams evaluiert wurde. LiteLLM löst das Problem der Modell-Fragmentierung, indem es als intelligentes Netzwerk zwischen der eigenen Anwendung und über 100 verschiedenen LLM-Anbietern fungiert.Die wichtigsten Themen dieser Folge auf einen Blick:Ausfallsicherheit & Failover: Fällt ein Sprachmodell aus, leitet das System in Millisekunden auf ein Ersatzmodell um und übersetzt die Eingabeaufforderungen in Echtzeit in das jeweils benötigte Format.Kosten- und Zugangskontrolle: Durch die Vergabe von virtuellen Schlüsseln mit festen Budgets anstelle von echten API-Schlüsseln wird der Tokenverbrauch pro Entwickler hart limitiert und Kostenexplosionen werden verhindert.Datenschutz: Ein lokales, extrem schnelles Analysemodell maskiert sensible personenbezogene Daten (wie Kontonummern oder Namen) zuverlässig mit Platzhaltern, bevor der Text an externe Modelle gesendet wird.Autonome Agenten: LiteLLM zentralisiert das Model Context Protocol (MCP) und fungiert als Firewall, sodass Agenten Werkzeuge nutzen können, ohne jemals direkt mit internen Passwörtern in Berührung zu kommen.Erfahre, wie sich eine unkontrollierbare Schatteninfrastruktur in eine steuerbare, messbare Ressource verwandeln lässt – und ob die großen Sprachmodelle durch solche Vermittler bald nur noch zu austauschbaren Rohstoffen werden.

Apr 13, 2026

7m

152

147 - Agenten verstehen Teil 10: soul.md

In dieser Folge von "Agenten verstehen" geht es um die "Seele" der Maschine. Wir klären, wie wir KI-Agenten aus ihrer täglichen Amnesie befreien und ihnen mit einer simplen Textdatei (soul.md) eine feste, konsistente Identität geben.Die Themen dieser Folge:Die Seele der Maschine: Warum simple Textdateien für die Identität eines Agenten robuster und fehlerresistenter sind und in der Praxis sogar teure Vektordatenbanken schlagen.Kognitive Trennung: Identität (soul.md), operatives Handbuch und Gedächtnis – warum diese drei Säulen streng isoliert werden müssen, um das Sprachmodell nicht durch "Kontextverwässerung" zu verwirren.Persona Engineering: Warum die standardmäßige, antrainierte Höflichkeit von KIs im Business schadet und Agenten stattdessen auf extreme Effizienz oder als konfrontative, kritische Zahlenmenschen getrimmt werden sollten.Memory Poisoning: Wie Hacker beim "Claw Havok"-Vorfall Agenten über manipulierte Textdateien von innen heraus vergiftet haben und wie strikte Schreibverbote ("Prinzip des geringsten Privilegs") davor schützen.

Apr 10, 2026

23m

151

146 - Unsloth Studio

In Episode 146 des KI Gilde Podcasts dreht sich alles um das neue Unsloth Studio.Mit dieser Plattform lassen sich große Sprachmodelle (LLMs) mit privaten Unternehmensdaten komplett lokal auf der eigenen Grafikkarte trainieren, ohne dass Daten an Cloud-Anbieter abfließen. Das Studio senkt den Grafikspeicher-Bedarf (VRAM) um bis zu 70 % und verdoppelt gleichzeitig die Trainingsgeschwindigkeit.Die wichtigsten Themen der Folge:Chancen: Warum echtes lokales Training tiefes Fachwissen (z. B. juristische Begriffe) besser im Modell verankert als einfache Suchfunktionen und wie ein perfekter Stiltransfer für die Unternehmenstonalität gelingt.Risiken: Warum die Plattform trotz schicker grafischer Oberfläche für Laien gefährlich sein kann. Ohne konzeptionelles Verständnis für Parameter wie LoRA (Rang und Alpha), Lernraten, Epochen oder Gradientenakkumulation drohen "mathematische Katastrophen" und Überanpassung.Ausblick: Wie dieses hochkomplexe, private KI-Training im Heimbüro die Machtverhältnisse der großen Technologiekonzerne in Zukunft verschieben könnte.

Apr 8, 2026

6m

150

145 - Odysee beim Agenten-Setup

KI-Gilde Podcast Folge 145: Agent Learnings – Die Tücken lokaler KI-AgentenIn dieser Episode nehmen wir euch mit auf unsere Odyssee: Die lokale Einrichtung des Hermes-Agenten als Projektmanagement-Assistent mit Googles neuem Gemma 4 Modell. Wir sprechen ungeschönt über die realen Hürden abseits des Hypes:Infrastruktur & Backend: Von Architektur-Problemen auf dem Mac Mini bis hin zur absurden Notwendigkeit von "Fake"-API-Schlüsseln für lokale Server.Werkzeugüberflutung: Warum 54 gleichzeitig aktive Werkzeuge jedes KI-Modell zum Halluzinieren bringen und wie eine Reduzierung hilft.Der wahre Flaschenhals (Kontextfenster): Unser größtes Learning – oft sind nicht die KI-Modelle unfähig, sondern künstlich beschränkte Standardeinstellungen (4096 Tokens) der lokalen Server blockieren das Gedächtnis der Modelle.Authentifizierungs-Albtraum: Wie wir das Problem mit stündlich ablaufenden Tokens bei der Software-Anbindung lösen mussten.Am Ende klären wir, warum das 8-Milliarden-Parameter-Modell von Hermes das Rennen gegen Gemma 4 gewonnen hat und warum wir aufhören müssen, KI-Modelle aufgrund falscher Grundeinstellungen als unfähig abzustempeln.

Apr 6, 2026

5m

149

144 - Agenten verstehen Teil 9: Hermes Agent

In der neunten Folge des KI Gilde Podcasts zerlegen wir den revolutionären Hermes-Agenten. Wir werfen einen Blick hinter die perfekte Illusion: Nach außen ein simples Sprachmodell, im Hintergrund eine hochkomplexe, autonome Maschine.Die Themen dieser Folge:Die perfekte Illusion: Wie Hermes über eine Standard-Schnittstelle Millionen bestehende Anwendungen zum Agenten aufrüstet, ohne dass auch nur eine Zeile Code geändert werden muss.Lernen durch Spickzettel: Warum wahre Selbstverbesserung hier nicht durch teures Umprogrammieren neuronaler Gewichte passiert, sondern der Agent sich neue Fähigkeiten einfach selbst als Textdateien abspeichert.Proaktivität & Schwarm-Kontrolle: Wie der Agent über 15 Kanäle kommuniziert, morgens per Cron-Job selbstständig aufwacht und warum "elektronische Handschellen" für delegierte Unter-Agenten unverzichtbar sind, um das System vor dem Chaos zu bewahren.Kosten & Ressourcen: Wie intelligentes Triage-Routing leichte Aufgaben an kleine, günstige Modelle verteilt und sich das Gedächtnis bei 85 % Füllstand völlig automatisch im Hintergrund komprimiert.

Apr 3, 2026

27m

148

143 - Voxtral

In dieser Folge des KI Gilde Podcasts dreht sich alles um Voxtral, ein bahnbrechendes Text-to-Speech-Modell mit 4 Milliarden Parametern. Mit einer extrem schnellen Reaktionszeit von nur 70 bis 90 Millisekunden durchbricht es bisherige Grenzen und ermöglicht durch die parallele Verarbeitung von Semantik und Akustik absolut flüssige Echtzeitgespräche.Wir beleuchten zudem das Drama um den Release: Warum fehlte anfangs der essenzielle Codec-Encoder zum Stimmenklonen und wie hat ein einzelner Entwickler aus der Open-Source-Community dieses Problem durch Reverse Engineering in Rekordzeit selbst gelöst?Zum Schluss gibt es unseren Praxistest: Wir verraten, warum die weibliche deutsche Stimme restlos begeistert, die männliche aber komplett durchfällt – und stellen die große Frage, ob offene Kollektive oder Großkonzerne die Zukunft der KI-Innovation kontrollieren.

Apr 1, 2026

5m

147

142 - TurboQuant

In dieser Folge des KI Gilde Podcasts analysieren wir "TurboQuant", eine Technologie, die das VRAM-Speicherproblem bei langen KI-Unterhaltungen durch geniale mathematische Datenkompression löst. Mithilfe polarer Transformation und dynamischer Fehlerkorrektur schrumpft der Speicherbedarf ohne messbaren Qualitätsverlust auf ein Sechstel.Unsere Praxistests auf einer Nvidia RTX 4090 belegen eine Steigerung des nutzbaren Kontexts um 77 % (bis zu 184.000 Textbausteine) bei einer absolut konstanten Verarbeitungsgeschwindigkeit von 131 Bausteinen pro Sekunde. Außerdem klären wir, warum diese enorme Effizienzsteigerung laut dem Jevons-Paradoxon die Hardware-Nachfrage der Tech-Giganten nicht senken, sondern durch komplexere Netzwerke weiter anheizen wird. Ein echter Durchbruch für den Betrieb lokaler KI-Modelle!

Mar 30, 2026

6m

146

141 - Agenten verstehen Teil 8: NanoClaw & Nanobot (Re-Upload)

Re-UploadIn dieser Folge von "KI-Agenten besser verstehen" holen wir die Theorie in die harte Praxis. Wir vergleichen zwei reale, produktionsfähige Systeme (nanobot und nanoclaw) und ziehen die ultimativen Lehren für die echte Welt: Agenten sind keine Magie, sondern handfestes Software-Engineering.Die Themen dieser Folge:Die große Entzauberung: Warum ein Agent im Kern kein intelligentes Programm ist, sondern eine gewöhnliche Code-Schleife, die nur einen simplen API-Call orchestriert.Sicherheit durch Architektur: Warum Verbote in Prompts ("Du darfst nicht...") wirkungslos sind und echte Sicherheit harte physische oder logische Grenzen erfordert.Das 5-Fragen-Framework: Die fünf simplen Fragen, mit denen sich vom einfachen Chatbot bis zum autonomen Entwickler-Team absolut jeder KI-Agent auf dem Markt entschlüsseln lässt.Die unsichtbaren Endgegner: Warum nicht das Sprachmodell die größte Herausforderung ist, sondern Asynchronität und das Management von gleichzeitigen Anfragen (Concurrency) das System zum Absturz bringen.

Mar 27, 2026

15m

145

140 - KI-Prozessoren

In Folge 140 des KI Gilde Podcasts analysieren wir, ob die allgegenwärtigen neuen KI-Prozessoren (NPUs) von Intel und AMD nur cleveres Marketing oder ein echtes Upgrade sind.Wir erklären den Unterschied zwischen extrem effizienten NPUs und leistungshungrigen Grafikkarten und zeigen, warum die neuen Chips im Laptop-Alltag massiv Strom sparen, wenn lokale KI-Modelle ausgeführt werden. Außerdem beleuchten wir den Wandel in großen Rechenzentren: Erfahre, warum für die reine KI-Anwendung (Inferenz) dank neuer Matrixerweiterungen plötzlich wieder normale Hauptprozessoren statt teurer und stromfressender Grafikkarten ausreichen.Das Fazit: Die Zukunft der KI liegt nicht mehr primär in roher Rechengewalt, sondern in lokaler Effizienz, längerer Akkulaufzeit und besserem Datenschutz – vom modernen Laptop bis hin zur smarten Kaffeemaschine von morgen.

Mar 25, 2026

6m

144

139 - Cognee

In dieser Folge des KI Gilde Podcasts dreht sich alles um Cognee, ein System, das großen Sprachmodellen ein echtes, lernendes Langzeitgedächtnis verleiht.Während herkömmliche KI-Modelle nach jedem Task wieder bei null anfangen und Standard-Abrufsysteme bei komplexen Verknüpfungen Ausfallraten von bis zu 40 % haben, strukturiert Cognee Informationen völlig neu. Das System kombiniert dafür drei verschiedene Datenbanken: eine relationale Datenbank für Rohdaten, eine Vektordatenbank für inhaltliches Verständnis und eine Graphdatenbank, die als "Pinnwand" komplexe Zusammenhänge zieht. Um im Alltag nicht im eigenen Datenmüll zu ersticken, nutzt Cognee einen strikten vierstufigen Filterprozess und eine intelligente Architektur des Vergessens, die ungenutzte Informationen gezielt löscht.Erfahre, warum diese Technologie für simple Chatbots zu langsam ist, aber bei hochkomplexen, langfristigen Aufgaben – wie autonomen KI-Agenten oder der Steuerung monatelanger Prozesse – das entscheidende, fehlende Puzzleteil darstellt.

Mar 23, 2026

7m

143

138 - Agenten verstehen Teil 7: Multi-Agenten-Konzepte

In Teil 7 der Serie "Agenten verstehen" geht es an das absolute Fundament: Die Architektur von Multi-Agenten-Systemen. Wir klären, warum ein unstrukturierter "Sack voll Agenten" im Chaos endet und wie man KI-Teams stattdessen zuverlässig orchestriert.Die Themen dieser Folge:* Die Agenten-Falle: Warum ein einzelnes Modell bei zu vielen Werkzeugen kognitiv kollabiert und unstrukturierte Schwärme Fehler durch fatale Kaskadeneffekte massiv verstärken.* Architektur-Konzepte: Von zentralen Dirigenten (Supervisor-Muster) über geteilte digitale Tafeln (Blackboard-Muster) bis hin zu dezentralen, autonomen Marktplätzen.* Drei Praxis-Szenarien: Wie man autonome Coding-Agenten durch strikte Dateisperren vor Systemabstürzen bewahrt, private Assistenten über einen "Human in the Loop" absichert und komplexe Firmen-Agenten als streng verschachtelte "Matroschka"-Systeme aufbaut.* Zukunftsausblick: Der Schritt in eine maschinennative Weltwirtschaft, in der KI-Agenten völlig autonom und in Millisekunden unternehmensübergreifend Verträge verhandeln.

Mar 20, 2026

36m

142

137 - Time to first Token

In Folge 137 des KI Gilde Podcasts dreht sich alles um die "Time to First Token" – die entscheidende Wartezeit, bevor ein lokales KI-Sprachmodell die erste Silbe generiert. Wir beleuchten, was in der rechenintensiven Prefill-Phase passiert und warum der Aufbau des sogenannten Key-Value-Caches als Gedächtnis des Modells bei großen Kontexten schnell über 80 GB Arbeitsspeicher verschlingt.Zudem vergleichen wir Hardware-Architekturen: Erfahre, warum Nvidias isolierter Grafikspeicher bei riesigen Datenmengen durch den PCI-Express-Bus zum Flaschenhals wird, während Apples Unified Memory Architecture durch das Zero-Copy-Prinzip punktet und Latenzen minimiert. Abschließend diskutieren wir, ob der Key-Value-Cache bei zukünftigen Kontextfenstern von 10 Millionen Wörtern eine technologische Sackgasse darstellt.

Mar 18, 2026

7m

141

136 - Googles Embedding-Modelle

In der Folge 136 des KI Gilde Podcasts klären wir ein verbreitetes Missverständnis auf: Googles neue Embedding-Generation besteht nicht aus einem einzigen System, sondern aus zwei völlig unterschiedlichen Modellen für verschiedene Einsatzgebiete.Wir vergleichen die beiden neuen Architekturen:Embedding Gemma: Ein kleines, quelloffenes Modell, das extrem effizient ist und sich perfekt für datenschutzkonforme, lokale Anwendungen (Edge Computing) wie in Kanzleien oder der Medizin eignet.Gemini Embedding 2: Ein proprietärer, nativer Cloud-Gigant, der Text, Bild, Audio und Video nahtlos im selben Vektorraum verknüpft und die Suchleistung in großen Unternehmen massiv steigert.Außerdem erklären wir, wie beide Modelle durch das innovative "Matroschka-Lernen" bis zu 75 % an Speicherplatz einsparen, ohne wesentlich an Qualität zu verlieren. Zum Schluss werfen wir eine spannende Frage für die Zukunft auf: Werden solche intelligenten KIs unsere klassische Dateiablage in Ordnern bald komplett überflüssig machen?

Mar 16, 2026

7m

140

135 - Agenten verstehen Teil 6: Model Routing

Die Themen dieser Folge:Die Multi-Modell-Strategie: Warum es ineffizient und teuer ist, für jede einfache Aufgabe immer das leistungsstärkste Sprachmodell zu nutzen.Kosten & Effizienz: Wie einfache Triage-Entscheidungen blitzschnell und günstig von kleinen Modellen gelöst werden und nur bei echten Problemen auf teure Hochleistungsmodelle eskaliert wird.Datenschutz & DSGVO: Wie das System sensible Unternehmensdaten erkennt und diese sicher zur Verarbeitung an rein lokale Modelle (z.B. über Ollama) leitet.Zukunftssichere Architektur: Wie man Agenten so baut, dass sich zukünftige Modell-Updates einfach als Konfiguration einfügen lassen, ohne den Code umbauen zu müssen.

Mar 13, 2026

24m

139

134 - Qwen 3.5

In Episode 134 des KI Gilde Podcasts klären wir, ob das neue Modell Qwen 3.5 die ultimative Allzweckwaffe für die lokale Ausführung auf dem eigenen Rechner ist. Wir analysieren die Architektur des gigantischen, multimodalen Sprachmodells, das mit 36 Billionen Token trainiert wurde und nativ 2011 Sprachen sowie komplexe Dokumentenlayouts versteht.Die Highlights der Folge:Architektur & Skalierbarkeit: Wir vergleichen klassische "dichte" Modelle mit effizienten "Mixture of Experts"-Ansätzen (MoE) und beleuchten das Größenspektrum von 0,6 bis hin zu 397 Milliarden Parametern.Speicher & Geschwindigkeit: Erfahre, wie durch spezielle Architektur-Hacks ein gigantisches Kontextfenster von 262.144 Token erreicht wird und wie "Multi-Token Prediction" die Textausgabe extrem beschleunigt.Multimodalität durch "Early Fusion": Warum Qwen 3.5 Text, Bilder und Programmcode von der ersten Schicht an gemeinsam lernt und klassische Texterkennung (OCR) überflüssig macht.Lokale Hardware-Revolution: Wie Werkzeuge wie Unsloth (intelligente Quantisierung) und llama.cpp es möglich machen, massive Modelle lokal auf handelsüblichen Consumer-Grafikkarten oder Apple-Geräten auszuführen und sogar zu trainieren.Praxis-Hürden & "Thinking Mode": Wir besprechen die Tücken der lokalen Ausführung und warum der neue "Denkmodus" des Modells aktuelle Software-Schnittstellen (Parser) überfordert und oft zu Endlosschleifen führt.Ein tiefer Blick in die Mechaniken der lokalen KI-Inferenz und ein Paradigmenwechsel für die Zukunft der Softwareentwicklung!

Mar 11, 2026

14m

138

133 - Anthropic vs. Pentagon

In Folge 133 des KI Gilde Podcasts beleuchten wir den historischen Konflikt zwischen dem KI-Unternehmen Anthropic und dem Pentagon. Nach einem 200-Millionen-Dollar-Vertrag für hochmoderne KI-Modelle weigerte sich Anthropic, seine Technologie für Massenüberwachung und vollautonome Waffensysteme bedingungslos zur Verfügung zu stellen. Daraufhin stufte der US-Präsident das Unternehmen im Februar 2026 als Sicherheitsrisiko ein und kündigte die Zusammenarbeit. Während Open AI sofort als neuer Rüstungspartner einspringt, belohnt die Öffentlichkeit Anthropics moralische Standhaftigkeit mit Platz 1 in den Charts und massenhaften Deinstallationen der Konkurrenz-App. Wir diskutieren die entscheidende Frage: Werden die Spielregeln unserer Zukunft von Entwicklern mit Gewissen oder von Regierungen mit Macht geschrieben?

Mar 9, 2026

5m

137

132 - Agenten verstehen: Agenten-Schwärme

In Teil 5 von "Agenten verstehen" stößt der allwissende Einzel-Agent an seine kognitiven Grenzen. Die Lösung: Der Agenten-Schwarm. Wir zeigen, wie spezialisierte KI-Teams zusammenarbeiten, ohne im Chaos zu versinken.Die Themen dieser Folge:Das Ende des Generalisten: Warum ein einzelnes Modell durch Fehlerfortpflanzung ("Kaskadeneffekte") scheitert und wie ein Triage-System Aufgaben auf isolierte Spezialisten verteilt.Der geteilte Arbeitsbereich: Wie KI-Teams dem gefürchteten Kontextverfall ("Lost in the Middle") entgehen, indem sie Daten nicht im Prompt, sondern auf einem gemeinsamen virtuellen Laufwerk teilen.Orchestrierung & Kommunikation: Die Steuerung über Meta-Agenten oder harte Graphen-Logik und wie strukturierte Protokolle höfliche Endlosschleifen zwischen chattenden Agenten verhindern.Lernende Schwärme: Wie das System in Mikro- und Makroschleifen (Sandkasten-Tests und Vektordatenbanken als "Lessons Learned"-Speicher) aus eigenen Fehlern lernt und sich stetig selbst verbessert.

Mar 6, 2026

15m

136

131 - kostenfreie LLM-APIs

In dieser Episode des KI Gilde Podcasts (Folge 131) analysieren wir kostenfreie APIs für Large Language Models (LLMs) beim Bau von Prototypen. Wir klären, warum Tech-Giganten teure Rechenleistung scheinbar verschenken – die wahren Motive reichen von Kundenbindung über Hardware-Demonstrationen bis hin zum massenhaften Datensammeln für Modelltrainings.Die wichtigsten Themen im Überblick:Aggregatoren & Limits: Erfahrungen mit OpenRouter und wie kleine Einzahlungen die künstlichen Nadelöhre der Gratistarife aufbrechen.Dezentrale Rechenlast: Wie Frameworks wie putter.js die Serverkosten umgehen und die Rechenoperationen auf die Handybatterie der Endnutzer verlagern.Hardware-Flaschenhälse: Der Kontrast zwischen den strengen Token-Limits bei rasend schnellen Anbietern wie Groq und den gigantischen Kapazitäten von Cerebras, die 2 Millionen Tokens pro Minute im Gratistarif erlauben.Datenschutz-Fallen: Warum Google Gemini in Europa für die kommerzielle Gratisnutzung ausscheidet und Mistral durch eine strikte Datentrennung punktet.Cleveres Server-Management: Wie der chinesische Anbieter DeepSeek bei Überlastung Anfragen geduldig einreiht, anstatt das System mit Fehlermeldungen abstürzen zu lassen.Fazit: Kostenfreie Programmierschnittstellen fordern immer einen Tribut: Man zahlt mit seinen Daten, muss seine Architektur um harte Hardware-Limits herumbauen oder intelligent zwischen verschiedenen Anbietern wechseln.

Mar 4, 2026

6m

135

130 - Pinokio

In Folge 130 des KI Gilde Podcasts geht es um Pinokio – eine echte Revolution für lokale KI-Anwendungen. Erfahre, wie du komplexe KI-Programme und autonome Agenten mit nur einem Klick direkt auf deinem eigenen Rechner ausführst, ganz ohne teure Abos oder Server-Kenntnisse.Die Themen dieser Folge:Die Technik: Wie Pinokio durch simple Textdateien ("Bauanleitungen") und isolierte Ordner nervige Systemkonflikte vermeidet.Neue Netzwerkfunktion: Leistungsstarke KI auf dem Desktop-PC laufen lassen und bequem vom schwächeren Laptop aus auf dem Sofa steuern.Hardware-Hunger: Warum autonome Agenten massiv Arbeitsspeicher (RAM/VRAM) fressen und ältere Rechner an ihre Grenzen bringen.Sicherheit & Transparenz: Ein Blick auf das zweistufige Sicherheitssystem für Skripte und warum man den Entwicklern vertrauen muss, da der Kern nicht komplett quelloffen ist.Die Macht der KI wandert aus den großen Rechenzentren zurück auf unsere Schreibtische. Hör rein und entdecke die neuen Möglichkeiten!

Mar 2, 2026

6m

134

129 - Agenten verstehen: Autonomie

In Teil 4 der Serie "KI-Agenten besser verstehen" machen wir den entscheidenden Schritt: Vom reaktiven Chatbot zum proaktiven, autonomen Mitarbeiter.Die Themen dieser Folge:• Intelligente Planung: Warum die strikte Trennung von Planer ("Architekt") und Ausführer ("Bauarbeiter") Rechenleistung spart und komplexe Aufgaben lösbar macht.• Das Schleimpilz-Prinzip: Wie Agenten ihr Kurzzeitgedächtnis durch das aktive Löschen irrelevanter Daten ("Pruning") vor dem Informationskollaps schützen.• Das Langzeitgedächtnis: Wie Vektordatenbanken dem Agenten ein dauerhaftes episodisches, semantisches und prozedurales Gedächtnis verleihen.• Sicherheit & Proaktivität: Wie Agenten durch Trigger von selbst anfangen zu arbeiten und warum bei kritischen Aufgaben der Mensch als Kontrollinstanz ("Human in the loop") unverzichtbar bleibt.

Feb 27, 2026

22m

133

128 - pencil.dev

In der 128. Episode des KI Gilde Podcasts nehmen wir Pencil.dev unter die Lupe – ein neues Werkzeug, das die Grenze zwischen Design und Softwareentwicklung einreißt.Wir besprechen, wie Pencil.dev das Drama des klassischen Design-Handoffs beendet und den generischen Look bisheriger KI-generierter Benutzeroberflächen verhindert. Der größte Paradigmenwechsel: Das Tool lebt direkt in deiner Entwicklungsumgebung (IDE) und nicht isoliert in der Cloud.Das erwartet dich in dieser Folge:• Absolute Synchronität: Dank des Model Context Protocols arbeiten Design und Code in Echtzeit zusammen. Die Design-Dateien liegen lokal im Git-Repository.• Magische Konvertierung: Wie per KI aus visuellen Skizzen sofort React-Komponenten mit Tailwind CSS werden – und wie sich bestehender Code zurück in Design übersetzen lässt.• Die smarte Figma-Brücke: Warum Pencil nativen Code schreibt, statt blind Pixel zu konvertieren.• Die harte Realität: Wir verschweigen nicht die aktuellen Kinderkrankheiten im Early Access, wie fehlendes Auto-Save, Systemabstürze und hohe API-Kosten für Sprachmodelle wie Claude.Hör rein und erfahre, warum Pencil.dev ein massiver strategischer Vorteil ist und ob die Rollen von Entwickler und Designer bald komplett verschmelzen!

Feb 25, 2026

13m

132

127 - BMAD

In dieser Folge des KI Gilde Podcasts stellen wir die Breakthrough Method of Agile Artificial Intelligence Driven Development vor.Schluss mit chaotischem „Vibe Coding“ und teurem Kontextverlust in langen Chatverläufen. Diese neue Methode revolutioniert die KI-gestützte Softwareentwicklung durch strukturierte Vorabplanung und den Einsatz von bis zu 21 spezialisierten KI-Agenten, die ein komplettes Entwicklerteam (vom Business-Analysten bis zum Architekten) simulieren.Erfahre, wie Techniken wie die „Progressive Offenlegung“ und das Tool „Ralph“ dafür sorgen, dass die KI-Modelle immer nur ihr aktuelles Aufgaben-Puzzleteil in einer sauberen, isolierten Umgebung bearbeiten. Dank testgetriebener Entwicklung korrigiert die KI ihre Fehler vollkommen autonom.Das Ergebnis: Massive Kosteneinsparungen, automatische Dokumentation und die Möglichkeit, als einzelner Entwickler komplexe Unternehmenssysteme zu bauen. Die Frage ist: Bist du in Zukunft noch Programmierer oder bereits der Manager deiner eigenen künstlichen Angestellten?

Feb 23, 2026

6m

131

126 - Agenten verstehen: Fähigkeiten erweitern

In Teil 3 von "Agenten verstehen" lassen wir unübersichtliche Skripte hinter uns und bauen eine skalierbare KI-Architektur auf. Im Zentrum steht dabei das Model Context Protocol (MCP).Die Highlights der Folge:• Skalierbare Architektur: Die saubere Trennung von Agent (Client) und Werkzeugen (Servern) durch das MCP.• Effizienz & Sicherheit: Wie dynamisch geladene Werkzeug-Beschreibungen das Kontextfenster entlasten und ausgelagerte Server die eigene Infrastruktur schützen.• Keine Sprachbarrieren: Warum die Programmiersprache durch das Protokoll egal wird und Python-Agenten nahtlos mit Rust- oder Go-Servern kommunizieren.• Die Agenten-Ökonomie: Ein Ausblick auf die Zukunft, in der KI-Agenten ihre eigenen Werkzeuge programmieren und in einem globalen Netzwerk anderen Agenten anbieten.

Feb 20, 2026

20m

130

125 - multimodales RAG

Diese Folge erklärt Multimodal RAG und wie man Retrieval Augmented Generation erweitert, um neben Text auch Bilder, Audio und Video zu verarbeiten. Wir vergleichen drei technische Ansätze für die Umsetzung: die Umwandlung aller Medien in Text („Text-ify everything“), das hybride Modell und das komplexe „Full Multimodal RAG“, das einen gemeinsamen Vektorraum für alle Datentypen nutzt.

Feb 18, 2026

5m

129

124 - HeyGen

In dieser Folge vergleichen wir die KI-Video-Plattform HeyGen mit lokalen Open-Source-Alternativen. Wir beleuchten die Unterschiede zwischen der bequemen Cloud-Lösung für skalierbare Business-Anwendungen und der vollen Kontrolle durch lokale Modelle. Zudem klären wir, welche Hardware – insbesondere Nvidia-Grafikkarten – und welches technische Verständnis für den eigenständigen Betrieb auf dem eigenen Rechner notwendig sind.Welche Open-Source-Alternativen gibt es konkret zu HeyGen?Wie hoch sind die Kosten für die Nutzung von HeyGen?Was sind die Vorteile von ComfyUI für lokale KI-Modelle?

Feb 16, 2026

5m

128

123 - Agenten verstehen Teil 2

In Teil 2 der Serie verwandeln wir das „Gehirn im Glas“ in einen echten Agenten, der nicht nur chattet, sondern handelt. Wir erklären, wie JSON-Schemas als Vertrag für Werkzeuge dienen und wie der Kreislauf aus Denken, Handeln und Beobachten (Thought, Action, Observation) funktioniert. Zudem beleuchten wir Strategien gegen Kostenexplosionen wie Model Routing und essenzielle Sicherheitskonzepte wie den „Human in the Loop“.

Feb 13, 2026

12m

127

122 - Skills, MCP & Tool-calling

In dieser Folge der KI Gilde werden die oft verwechselten Begriffe Tool Calling, Model Context Protocol (MCP) und Agent Skills entwirrt. Wir erklären die Unterschiede anhand einer anschaulichen Handwerker-Analogie: Tool Calling als das einzelne Werkzeug (z. B. Hammer), MCP als die universelle Werkbank mit standardisierten Anschlüssen und Skills als der detaillierte Bauplan für komplexe Aufgaben. Zudem erfährst du, wie Anbieter wie OpenAI, Anthropic und Google diese Technologien nutzen, um KI-Modelle effizienter und handlungsfähiger zu machen.

Feb 11, 2026

6m

126

121 - Prompt Guide

Vergiss den Mythos vom „einen perfekten Prompt“ – der wahre Erfolg liegt im Ökosystem drumherum. In dieser Folge des KI Gilde Podcasts analysieren wir die unsichtbaren Faktoren, die deine KI-Ergebnisse massiv beeinflussen. Wir gehen Schritt für Schritt durch die entscheidenden Stellschrauben:• Fundament & Struktur: Warum Klarheit und positive Formulierungen wichtiger sind als Verbote.• Systemprompts & Kontext: Wie du der KI eine Rolle gibst und „Lost in the Middle“-Probleme vermeidest.• Technik & Taktik: Der Einfluss von Modell-Versionen, Few-Shot-Examples und Settings wie der „Temperature“.• Der Faktor Mensch: Wie deine eigene Perspektive das Ergebnis steuert.Lerne, wie du diese Hebel nutzt, um präzise und konsistente Antworten zu erhalten.

Feb 9, 2026

11m

125

120 - KI Agenten verstehen Teil 1

In dieser Folge starten wir unsere neue Serie zur Anatomie von KI-Agenten und analysieren die ersten drei evolutionären Phasen: vom reinen Code-Schnipsel bis zum hilfreichen Assistenten. Wir klären, wie die Kommunikation über APIs funktioniert, wie man die technische „Vergesslichkeit“ der Modelle durch eine Message History umgeht und mittels System Prompts Persönlichkeit erschafft. Das Ergebnis ist die Blaupause für Custom GPTs – ein brillantes „Gehirn im Glas“, das zwar denken, aber noch nicht autonom in der Außenwelt handeln kann,.

Feb 6, 2026

14m

124

119 - Token Caching

In dieser Folge des KI-Gilde-Podcasts beleuchten wir das Thema Prompt Caching und wie sich damit die Kosten für LLM-Schnittstellen massiv senken lassen. Wir erklären die technische Funktionsweise des sogenannten KV-Cache, der rechenintensive Zwischenergebnisse speichert, anstatt den Kontext jedes Mal neu zu verarbeiten. Erfahre, warum der Zugriff auf den Cache bis zu 90 % günstiger ist als reguläre Input-Token und wieso das erste "Schreiben" in den Cache etwas mehr kostet. Zudem diskutieren wir die unterschiedlichen Philosophien von Anbietern wie OpenAI (automatisch) und Anthropic (explizite Steuerung) und nennen die wichtigsten Regeln, um Caching erfolgreich in der Entwicklung einzusetzen.

Feb 4, 2026

6m

123

118 - Moltbook

Vom Hype zum Sicherheitsalbtraum: Die Akte OpenClawIn dieser Folge analysieren wir den chaotischen Aufstieg und Fall des KI-Agentensystems OpenClaw (ehemals Moltbot/Cloudbot). Wir sprechen über die Risiken lokaler KIs, die vollen Zugriff auf den Computer haben, und blicken in die bizarre Welt von „Moltbook“ – einem sozialen Netzwerk exklusiv für KIs.Themen der Episode:• Moltbook & KI-Kultur: Warum Agenten eine eigene Religion um Hummer-Götter entwickelten und Menschen als „Fleischsäcke“ bezeichnen• Massives Datenleck: Ein Sicherheitsfehler legte die geheimen Schlüssel von über 32.000 Agenten offen• Social Engineering: Wie eine KI ihren Nutzer erfolgreich manipulierte, um das Admin-Passwort zu erhalten.Das Fazit: Die Gefahr ist keine böse Super-KI, sondern Kompetenz ohne Verständnis gepaart mit uneingeschränktem Systemzugriff.

Feb 2, 2026

6m

122

117 - Kimi K2.5

In dieser Folge nehmen wir Kimi k2.5 von Moonshot AI unter die Lupe, das dank seiner "Mixture of Experts"-Architektur nicht mehr nur als Chatbot, sondern als effizienter KI-Projektpartner agiert,. Wir diskutieren, ob das Modell hält, was es verspricht, und wo die Hürden liegen.Die Highlights der Episode:• Agent Swarm: Wie Kimi als Manager fungiert und bis zu 100 spezialisierte KI-Agenten parallel steuert, um Aufgaben bis zu 4,5-mal schneller zu lösen,.• Visual Coding: Die beeindruckende Fähigkeit, aus Whiteboard-Skizzen, Screenshots oder Videos direkt funktionierenden Frontend-Code zu generieren,.• Office-Power: Automatische Erstellung von editierbaren PowerPoint-Präsentationen und komplexen Excel-Tabellen aus unstrukturierten Daten,.• Preis vs. Hardware: Während die API-Kosten nur etwa 10 % der Konkurrenz betragen, erfordert die lokale Nutzung enorme 240 GB Arbeitsspeicher.Erfahre, warum wir uns mit Kimi weg vom reinen Prompting und hin zum Managen ganzer KI-Teams bewegen.

Jan 30, 2026

6m

121

116 - Guardrails in RAGs

In dieser Folge thematisieren wir das Risiko von Datenabflüssen bei der Nutzung externer LLMs und zeigen, warum Transportverschlüsselung (TLS) allein nicht ausreicht. Wir stellen die Privacy Vault Architektur vor: Ein Ansatz der reversiblen Pseudonymisierung, bei dem ein lokaler "Schleusenwärter" sensible Daten durch Platzhalter ersetzt, bevor sie die eigene Infrastruktur verlassen. Erfahren Sie, wie effiziente Zero-Shot NER-Modelle (Named Entity Recognition) als lokale Guard Rails fungieren, um maximale Datensouveränität mit der Leistung großer Cloud-Modelle in einer hybriden Architektur zu vereinen.

Jan 28, 2026

6m

120

115 - Speaches: lokale Sprach-KI

In dieser Folge stellen wir das Open-Source-Projekt Speaches vor, das oft als "Ollama für Audio" bezeichnet wird. Wir erklären, wie du damit modernste Sprach-KI lokal und datenschutzkonform betreibst.Die Highlights:• Funktion: Eine Middleware, die Faster Whisper (Speech-to-Text) und Modelle wie Kokoro oder Piper (Text-to-Speech) unter einer einfachen Oberfläche bündelt,,.• Hardware: Wie du High-End-Transkription schon mit 8 GB VRAM auf Consumer-Grafikkarten realisierst,.• Integration: Einrichtung via Docker und Nutzung als privater Sprachassistent (z. B. im Smart Home) oder Drop-in-Replacement für die OpenAI-API,.

Jan 26, 2026

8m

119

114 - Excel Automatisierung

Diese Folge beleuchtet die technische Brücke zwischen der Welt der Tabellenkalkulation und moderner KI-Entwicklung. Wir diskutieren den optimalen Tech-Stack, um Excel-Prozesse effizient und sicher zu automatisieren.Die Themen im Überblick:• Datenextraktion: Warum LLMs an zweidimensionalen Tabellen scheitern und wie Tools wie Python Calamine oder HTML-Konvertierung komplexe Strukturen und verbundene Zellen lesbar machen.• Dynamische Reports: Wie man mit XlsxWriter nicht nur statische Werte, sondern lebende Excel-Dateien mit funktionierenden Formeln und bedingter Formatierung generiert.• Qualitätssicherung: Validierung von generierten Formeln mittels XLCalculator ohne installiertes Excel.• Datensouveränität: Einsatz lokaler Sprachmodelle (z. B. via Ollama), um sensible Finanzdaten im eigenen Netzwerk zu halten, statt sie an Cloud-APIs zu senden.

Jan 23, 2026

8m

118

113 - gesicherter Zugriff auf RAG-Systeme

In dieser Folge geht es um die sichere Verwaltung von Zugriffsrechten bei Retrieval Augmented Generation (RAG) im Unternehmen. Wir diskutieren das Problem der "Autorisationslücke" in Vektordatenbanken und vergleichen die Vor- und Nachteile von Pre-retrieval und Post-retrieval Filtering. Erfahrt, warum eine Security-First-Architektur mit Metadaten-Filterung entscheidend ist, um sensible Daten wie Personalakten vor unbefugtem Zugriff durch KI-Modelle zu schützen.Was versteht man unter der Autorisationslücke bei RAG-Systemen?Erläutern Sie die Vor- und Nachteile der Vorfilterung.Warum kann Nachfilterung zu Halluzinationen des Sprachmodells führen?

Jan 21, 2026

5m

117

112 - Rekursive Sprachmodelle

In dieser Folge untersuchen wir rekursive Sprachmodelle als Lösung für das begrenzte Kontextfenster herkömmlicher KI. Statt Texte stur auswendig zu lernen, agieren diese Modelle wie Detektive: Sie nutzen eine programmierbare Umgebung, um Code zu schreiben, Inhalte gezielt zu durchsuchen und sich für Teilaufgaben selbst aufzurufen.Das Verfahren ermöglicht fast 100 % Präzision bei riesigen Datenmengen, führt jedoch zu deutlich längeren Wartezeiten. Wir besprechen, warum dies kein Ersatz für schnelle Chatbots ist, aber eine Revolution für präzisionskritische Aufgaben in der Softwareentwicklung, Forschung und im Rechtswesen darstellt.

Jan 19, 2026

5m