Gemeinsam Wissens-Infrastruktur bauen: föderierte Wikibase für Video- und Podcasts (gpn24) episode artwork

EPISODE · Jun 7, 2026 · 41 MIN

Gemeinsam Wissens-Infrastruktur bauen: föderierte Wikibase für Video- und Podcasts (gpn24)

from Chaos Computer Club - recent audio-only feed

Das WissKomm Wiki hat Förderung, einen laufenden Prototypen und 100.000+ identifizierte Videos. Dieser Talk zeigt, was schon läuft: föderierte Wikibase, automatische Transkription per Whisper, SPARQL-Queries über Wissenschaftsmedien. Mit Arrrrrmin haben wir LanzMining von der GPN23 zu SpeakerMining aufgebaut und ins WissKomm Wiki integriert - eine vollständige Pipeline, die aus ZDF-Archiv-PDFs einen verlinkten Wissensgraph erzeugt: 10.000+ Personenerwähnungen, 120.000+ Wikidata-Triples, OpenRefine-Kuration. Genau das skalieren wir im WissKomm Wiki auf Wissenschaftsvideos und -podcasts. Plus die offenen Probleme, an denen wir gemeinsam arbeiten möchten, am besten gleich im GPN24 Hackathon. 2021: Idee GPN22: Präsentation im CCC. GPN23: Prototyp, Antrag in der Schwebe, Arrrrrmin stellt LanzMining vor. GPN24: Das Projekt läuft: Gefördert durch FDM-NDS dürfen wir jetzt zeigen, wie LanzMining, WissKomm Wiki und viele ähnliche Projekte zusammenpassen. Ein Einblick: [GPN23, media.ccc.de](https://media.ccc.de/v/gpn23-299-ctrl-f-for-facts-mit-dem-wisskomm-wiki-filterblasen-erkennen-und-fakten-sichtbar-machen). Im Talk gehen wir endlich über Konzepte hinaus in die Anwendung! Auf der GPN23 hat Arrrrrmin mit LanzMining gezeigt, was möglich ist, wenn man TV-Archivdaten strukturiert erschließt. Wir haben das weitergebaut zur vollständigen Pipeline Speaker Mining. Ausgangspunkt: ZDF-Archiv-PDFs des Markus-Lanz-Talks. Semantisch disambiguiert mit OpenRefine, dedupliziert auf Wikibase bereitgestellt und letztlich nachhaltig frei verfügbar. Wer mag, kann live über SPARQL-Queries Fragen stellen: - wer war wie oft zu Gast? Mit welcher Rollenverteilung? Wir gehen noch tiefer in die Analyse: Visualisierung der Rollenverteilung, wie von LanzMining bereits vorgemacht: Indem wir Klassen wie Rollen und Instanzen wie Markus Lanz statistisch unter die Lupe nehmen, können wir mit Speaker Mining bildlich machen, was unsere Medienlandschaft ausmacht. Die aktuelle WissKomm-Wiki-Infrastruktur besteht aus einer föderierten Wikibase via Wikibase.cloud (wie ein eigenes Wikidata), langfristig verknüpft mit einem Full Text Wiki für Transkripte. Via SPARQL kann nach Properties und Datenquellen gefiltert werden. Speaker Mining zeigt, wohin das führt: Wenn Sendungsarchiv-Metadaten maschinenlesbar in einer Wikibase liegen, kann man fragen: Wer war wann zu Gast, mit welcher Rolle, aus welcher Institution? Whisper läuft noch lokal, transkribiert offline, und die Ergebnisse landen vorerst nicht im Wiki - bis wir im Projekt die Rechtsfragen geklärt haben. Ziel dafür: Ende Juni steht der Fragenkatalog, und im September haben wir unser Rechtsgutachten. Experimentell haben wir so schon mal 230+ Folgen Lanz & Precht transkribiert und analysiert - die ersten Ergebnisse sind ganz spannend. Der Blick auf die beiden *sozusagen*-Experten ist nur ein erster Einblick in das, was langfristig möglich sein soll. Der nächste Schritt geht gen Wissenschafts-Podcasts, wie dem jüngst mit dem ÖFG-Preis für Wissenschaftsjournalismus ausgezeichneten Podcast [Das Klima](https://dasklima.podigee.io/) von u.a. FuzzyLeapfrog, die von Beginn an bei Speaker Mining mitgewirkt hat. Jetzt geht es darum, die Community aufzubauen: Der [Matrix-Channel](https://matrix.to/#/#wisskomm.wiki:matrix.org) ist aufgesetzt, das Community-Team steht bereit und arbeitet fleißig mit unserem gemeinnützigen Verein daran, die gewachsenen Strukturen der vergangenen fünf Jahre auf bleibende Strukturen zu stellen. Das Open Science Lab aus Hannover übernimmt die fundamentale Infrastruktur, und der Verein übernimmt experimentellere Interfaces wie Gamification oder Plugins. * Föderierte Wiki-Architektur: Wikibase + Full Text Wiki, verbunden über interne Queries * Module für Datenakquise, Zwischenspeicherung, Transkription (Whisper ASR, lokal) * Interfaces: nicht nur für Forschende und Entwickler\*innen, sondern auch für Urheber\*innen und Plattformbetreibende * Federation mit Wikidata, ORKG, TIB AV-Portal - ohne deren Infrastruktur zu überlasten Wer mitmachen will: Wir vom WissKomm Wiki sind auf der GPN, sprecht uns an :) Zum Talk gibts hoffentlich noch den Workshop. **Links** * [GPN23: CTRL+F for Facts (WissKomm Wiki)](https://media.ccc.de/v/gpn23-299-ctrl-f-for-facts-mit-dem-wisskomm-wiki-filterblasen-erkennen-und-fakten-sichtbar-machen) * [GPN23: LanzMining (Arrrrrmin)]([https://media.ccc.de/v/gpn23](https://media.ccc.de/v/gpn23-213-lanzmining-wer-spricht-denn-da-)) * [Projekt](https://borgnetzwerk.org/wisskomm-wiki) * SciCom Wiki: [Code](https://gitlab.com/wisskomm-wiki), [Paper](https://arxiv.org/abs/2511.09248), * Speaker Mining: [Code](https://github.com/borgnetzwerk/speaker-mining), [Paper]( https://doi.org/10.48550/arXiv.2606.02905)) Licensed to the public under https://creativecommons.org/licenses/by/4.0/ about this event: https://cfp.gulas.ch/gpn24/talk/G9VCNN/

Das WissKomm Wiki hat Förderung, einen laufenden Prototypen und 100.000+ identifizierte Videos. Dieser Talk zeigt, was schon läuft: föderierte Wikibase, automatische Transkription per Whisper, SPARQL-Queries über Wissenschaftsmedien. Mit Arrrrrmin haben wir LanzMining von der GPN23 zu SpeakerMining aufgebaut und ins WissKomm Wiki integriert - eine vollständige Pipeline, die aus ZDF-Archiv-PDFs einen verlinkten Wissensgraph erzeugt: 10.000+ Personenerwähnungen, 120.000+ Wikidata-Triples, OpenRefine-Kuration. Genau das skalieren wir im WissKomm Wiki auf Wissenschaftsvideos und -podcasts. Plus die offenen Probleme, an denen wir gemeinsam arbeiten möchten, am besten gleich im GPN24 Hackathon. 2021: Idee GPN22: Präsentation im CCC. GPN23: Prototyp, Antrag in der Schwebe, Arrrrrmin stellt LanzMining vor. GPN24: Das Projekt läuft: Gefördert durch FDM-NDS dürfen wir jetzt zeigen, wie LanzMining, WissKomm Wiki und viele ähnliche Projekte zusammenpassen. Ein Einblick: [GPN23, media.ccc.de](https://media.ccc.de/v/gpn23-299-ctrl-f-for-facts-mit-dem-wisskomm-wiki-filterblasen-erkennen-und-fakten-sichtbar-machen). Im Talk gehen wir endlich über Konzepte hinaus in die Anwendung! Auf der GPN23 hat Arrrrrmin mit LanzMining gezeigt, was möglich ist, wenn man TV-Archivdaten strukturiert erschließt. Wir haben das weitergebaut zur vollständigen Pipeline Speaker Mining. Ausgangspunkt: ZDF-Archiv-PDFs des Markus-Lanz-Talks. Semantisch disambiguiert mit OpenRefine, dedupliziert auf Wikibase bereitgestellt und letztlich nachhaltig frei verfügbar. Wer mag, kann live über SPARQL-Queries Fragen stellen: - wer war wie oft zu Gast? Mit welcher Rollenverteilung? Wir gehen noch tiefer in die Analyse: Visualisierung der Rollenverteilung, wie von LanzMining bereits vorgemacht: Indem wir Klassen wie Rollen und Instanzen wie Markus Lanz statistisch unter die Lupe nehmen, können wir mit Speaker Mining bildlich machen, was unsere Medienlandschaft ausmacht. Die aktuelle WissKomm-Wiki-Infrastruktur besteht aus einer föderierten Wikibase via Wikibase.cloud (wie ein eigenes Wikidata), langfristig verknüpft mit einem Full Text Wiki für Transkripte. Via SPARQL kann nach Properties und Datenquellen gefiltert werden. Speaker Mining zeigt, wohin das führt: Wenn Sendungsarchiv-Metadaten maschinenlesbar in einer Wikibase liegen, kann man fragen: Wer war wann zu Gast, mit welcher Rolle, aus welcher Institution? Whisper läuft noch lokal, transkribiert offline, und die Ergebnisse landen vorerst nicht im Wiki - bis wir im Projekt die Rechtsfragen geklärt haben. Ziel dafür: Ende Juni steht der Fragenkatalog, und im September haben wir unser Rechtsgutachten. Experimentell haben wir so schon mal 230+ Folgen Lanz & Precht transkribiert und analysiert - die ersten Ergebnisse sind ganz spannend. Der Blick auf die beiden *sozusagen*-Experten ist nur ein erster Einblick in das, was langfristig möglich sein soll. Der nächste Schritt geht gen Wissenschafts-Podcasts, wie dem jüngst mit dem ÖFG-Preis für Wissenschaftsjournalismus ausgezeichneten Podcast [Das Klima](https://dasklima.podigee.io/) von u.a. FuzzyLeapfrog, die von Beginn an bei Speaker Mining mitgewirkt hat. Jetzt geht es darum, die Community aufzubauen: Der [Matrix-Channel](https://matrix.to/#/#wisskomm.wiki:matrix.org) ist aufgesetzt, das Community-Team steht bereit und arbeitet fleißig mit unserem gemeinnützigen Verein daran, die gewachsenen Strukturen der vergangenen fünf Jahre auf bleibende Strukturen zu stellen. Das Open Science Lab aus Hannover übernimmt die fundamentale Infrastruktur, und der Verein übernimmt experimentellere Interfaces wie Gamification oder Plugins. * Föderierte Wiki-Architektur: Wikibase + Full Text Wiki, verbunden über interne Queries * Module für Datenakquise, Zwischenspeicherung, Transkription (Whisper ASR, lokal) * Interfaces: nicht nur für Forschende und Entwickler\*innen, sondern auch für Urheber\*innen und Plattformbetreibende * Federation mit Wikidata, ORKG, TIB AV-Portal - ohne deren Infrastruktur zu überlasten Wer mitmachen will: Wir vom WissKomm Wiki sind auf der GPN, sprecht uns an :) Zum Talk gibts hoffentlich noch den Workshop. **Links** * [GPN23: CTRL+F for Facts (WissKomm Wiki)](https://media.ccc.de/v/gpn23-299-ctrl-f-for-facts-mit-dem-wisskomm-wiki-filterblasen-erkennen-und-fakten-sichtbar-machen) * [GPN23: LanzMining (Arrrrrmin)]([https://media.ccc.de/v/gpn23](https://media.ccc.de/v/gpn23-213-lanzmining-wer-spricht-denn-da-)) * [Projekt](https://borgnetzwerk.org/wisskomm-wiki) * SciCom Wiki: [Code](https://gitlab.com/wisskomm-wiki), [Paper](https://arxiv.org/abs/2511.09248), * Speaker Mining: [Code](https://github.com/borgnetzwerk/speaker-mining), [Paper]( https://doi.org/10.48550/arXiv.2606.02905)) Licensed to the public under https://creativecommons.org/licenses/by/4.0/ about this event: https://cfp.gulas.ch/gpn24/talk/G9VCNN/

NOW PLAYING

Gemeinsam Wissens-Infrastruktur bauen: föderierte Wikibase für Video- und Podcasts (gpn24)

0:00 41:38

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

Breaking News Show | eTurboNews Juergen Thomas Steinmetz News is relevant to the global travel and tourism industry, human rights and global issues.Breaking news when it happens and only from the source. That Hoarder: Overcome Compulsive Hoarding That Hoarder Hoarding disorder is stigmatised and people who hoard feel vast amounts of shame. This podcast began life as an audio diary, an anonymous outlet for somebody with this weird condition. That Hoarder speaks about her experiences living with compulsive hoarding, she interviews therapists, academics, researchers, children of hoarders, professional organisers and influencers, and she shares insight and tips for others with the problem. Listened to by people who hoard as well as those who love them and those who work with them, Overcome Compulsive Hoarding with That Hoarder aims to shatter the stigma, share the truth and speak openly and honestly to improve lives. HOMELAND HOMELAND The Church is a body not a building. It's the bride of Jesus Christ! Jesus is coming back for a mature bride. That means it's time for the church of Jesus Christ to move from milk to meat. This is the hour of maturity!HOMELAND is an announcement that the church is being set free. Only the church has the ability to transform the world. The kingdom's of this world will become the kingdoms of our Lord and Savior!All of creation has been waiting for this moment! Sons and daughters of God are rising up and taking their seat! LIGHTS, CAMERA, SMILE! Creatives Club Media Lights, Camera, Smile, is a podcast for anyone with a dream to share something with the world, out of the overflow of themselves - be it their mind, their heart, their personalities, and much more. Each of us are alive in this moment in time, with an innate ability to have ideas and create various things to benefit both ourselves and the people around us for a reason, and here, you will find the encouragement, the inspiration, and the motivation to do just that. Hosted by Cicily, founder of Creatives Club, she dives into various topics surrounding creativity and business. Exploring entrepreneurship for creatives in a corporate reality, sharing tips and tricks in a media centered company, answering questions regarding what a creative actually is are just a few of the things discussed on this podcast. Be encouraged to create for yourself as Cicily gets vulnerable by pivoting the camera to herself for the first time.To submit questions for Cicily to answer, or have her address certain t

Frequently Asked Questions

How long is this episode of Chaos Computer Club - recent audio-only feed?

This episode is 41 minutes long.

When was this Chaos Computer Club - recent audio-only feed episode published?

This episode was published on June 7, 2026.

What is this episode about?

Das WissKomm Wiki hat Förderung, einen laufenden Prototypen und 100.000+ identifizierte Videos. Dieser Talk zeigt, was schon läuft: föderierte Wikibase, automatische Transkription per Whisper, SPARQL-Queries über Wissenschaftsmedien. Mit Arrrrrmin...

Can I download this Chaos Computer Club - recent audio-only feed episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!