EPISODE · Oct 28, 2025 · 51 MIN
Episode 224 : Données non structurées et modern OCR
from Big Data Hebdo · host Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz
Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.00:00 Introduction03:06 La promesse des éditeurs08:05 Comprendre le RAG et son fonctionnement11:06 Difficultés liées à l'OCR et à l'extraction de données19:05 Recommandations pour l'optimisation des documents28:46 Mistral Document AI et ses fonctionnalités33:49 Chunking et gestion des documents40:55 Fine-tuning des modèles d'embeddings43:00 Formats de documents et leur pérennité47:23 Conclusion et perspectivesNotes et ressources https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
What this episode covers
Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.00:00 Introduction03:06 La promesse des éditeurs08:05 Comprendre le RAG et son fonctionnement11:06 Difficultés liées à l'OCR et à l'extraction de données19:05 Recommandations pour l'optimisation des documents28:46 Mistral Document AI et ses fonctionnalités33:49 Chunking et gestion des documents40:55 Fine-tuning des modèles d'embeddings43:00 Formats de documents et leur pérennité47:23 Conclusion et perspectivesNotes et ressources https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
NOW PLAYING
Episode 224 : Données non structurées et modern OCR
No transcript for this episode yet
Similar Episodes
No similar episodes found.