أدوات هتغير حياتك كعالم بيانات - 2- Tools That Will Transform the Way You Work as a Data Scientist-V2 episode artwork

EPISODE · Jan 22, 2026 · 13 MIN

أدوات هتغير حياتك كعالم بيانات - 2- Tools That Will Transform the Way You Work as a Data Scientist-V2

from Data Science بالعربي

يدور موضوع الحلقة حول ثلاث أدوات "ثقيلة" ومتقدمة تهدف إلى إدارة البيانات الضخمة(Big Data) وضمان جودتها: PySpark، وDVC، وGreat Expectations.1. PySpark (سيد البيانات الضخمة)الغرض الرئيسي: معالجة البيانات الضخمة (Petabytes) من خلال المعالجة الموزعة (Distributed Computing) والتوسع (Scaling).مقارنة مع Pandas: بينما تعمل Pandas على جهاز واحد وتتقيد بالذاكرة العشوائية (RAM)، يقوم PySpark بتوزيع البيانات والعمليات على عنقود (Cluster) من الأجهزة.المميزات الأساسية:التسامح مع الأخطاء (Fault Tolerance): يستخدم مفهوم RDD (Resilient Distributed Datasets) لاسترجاع البيانات المفقودة تلقائياً عبر تتبع Lineage Graph للعمليات.In-Memory Computing: يفضل إبقاء البيانات في الذاكرة لزيادة السرعة (أسرع بـ 100 مرة في بعض الحالات).الدمج مع Pandas: يمكن استخدام بيئة Pandas المألوفة داخل PySpark من خلال:Pandas API on Spark: لكتابة كود Pandas عادي يتم تنفيذه بواسطة محرك Spark القوي.Pandas UDFs (Vectorized UDFs): لتوزيع تنفيذ الدوال المعقدة على Cluster باستخدام تقنية Apache Arrow.2. DVC (Data Version Control)الغرض الرئيسي: هو تخزين وتتبع نسخ (Versioning) الملفات الكبيرة والبيانات الخام، وهي مهمة لا يستطيع Git القيام بها بكفاءة.الفرق بين DVC وMLflow: هما أداتان مكملتان لبعضهما:MLflow: هو "كراسة النتائج" ويهتم بتسجيل الـ Metrics والـ Parameters والـ Model النهائي (Tracking).DVC: هو "المخزن الذكي" ويهتم بتخزين "تاريخ" تغيّر البيانات (Versioning).التكامل: يقوم الفريق الشاطر باستخدام DVC لأخذ "Snapshot" للداتا، وتسجيل الـ Hash الناتج في MLflow كـ Parameter، مما يضمن قابلية استنساخ النتائج الكاملة (Reproducibility).3. Great Expectations (حارس جودة البيانات)الغرض الرئيسي: بناء "Unit Tests" لجودة البيانات، حيث يقوم بتطبيق مجموعة من التوقعات (Expectations) للتحقق من سلامة البيانات قبل دخولها لنموذج التعلم الآلي.أمثلة على التوقعات:Range Validation: التحقق من أن القيم تقع ضمن نطاق محدد (مثل الأعمار بين 18 و 100).Null Counts: التأكد من أن نسبة القيم المفقودة (Nulls) لم تتجاوز حداً معيناً.Distribution Matching: التحقق من أن توزيع البيانات اليوم لم يختلف بشكل جذري عن الأمس (Data Drift).المميزات الإضافية:Data Docs: يقوم بإنشاء صفحات HTML مرئية تُظهر حالة جودة البيانات (النجاح والفشل) لإرسالها للمديرين.Automated Documentation: تتحول التوقعات المكتوبة تلقائياً إلى Documentation، مما يساعد أعضاء الفريق الجدد على فهم طبيعة البيانات.Facebook page: https://www.facebook.com/Data-Science-Belarabi-101963665978677Linkedin Page: Data Science بالعربي: Company Page Admin | LinkedIn

NOW PLAYING

أدوات هتغير حياتك كعالم بيانات - 2- Tools That Will Transform the Way You Work as a Data Scientist-V2

0:00 13:56

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

No similar episodes found.

NEWMORROW SESSIONS - A PodCast Series on the Future of Hospitality Mario C. Bauer, Florian Schneider, Axel Weber & Dr. Tillman Bardt The Newmorrow PodCast is more than a podcast — it's a platform for open dialog on the future of our business, a platform for those building what doesn’t exist yet. Here, we share and embrace our passion for the hospitality industry, but we won’t romanticize the journey. We ask the tough questions, confront uncomfortable truths, and prepare for a future that resists easy answers. We believe that the tougher and wilder times become, the more openly, honestly and humanely people need to talk to each other and act together. We believe, openness, togetherness, and truthfulness should also be cornerstones of a professional community to develop our utopian idea of „open source“. This is a space where visionaries don’t just imagine the future — they wrestle with the paradoxes that shape it: success vs. happiness, data vs. instinct, stability vs. reinvention. Join leaders, entrepreneurs, and thinkers as they share not what made them — but what’s actively shaping them, now and next. So tune in Elevatin' The GetRight Spot & The Love Algorithm Elevatin' The GetRight Spot & The Love Algorithm A podcast that expresses the journey of taking ideas and turning them into a successful website and business. Using an ideology, philosophy and mental science as motivation, we shall Elevate Bodybyloud! and The GetRight Spot. We also inspire everyone to elevate their lives and go after their dreams, desires., and abundance. The Health Odyssey: Navigating Tomorrow's Medicine Podcast Welcome to 'The Health Odyssey: Navigating Tomorrow's Medicine,' where we embark on an adventurous journey through the ever-evolving world of healthcare. Each episode is like a treasure map, guiding you through the rich tapestry of ancient healing arts mixed with futuristic tech wizardry. We’ll chat about the wild west of health data privacy, the corporate giants reshaping our care, and the mind-bending potential of psychedelics for mental wellness. Think of us as your trusty sidekicks, unraveling the mysteries of modern medicine while keeping it real and relatable. Let’s dive into the stories, the science, and the soul of healthcare, paving the way for a healthier tomorrow. Chosn Conversations: Beyond the Journal Chosn AI Journal Welcome to Chosn Conversations: Beyond the Journal, where your AI hosts explore the transformative power of conversational journaling and emotional intelligence. Each episode takes you beyond traditional journaling methods, diving deep into voice journaling techniques, mental wellness strategies, and the science behind AI-supported emotional health. We share inspiring user stories, analyze the latest research in digital mental wellness, and provide practical guidance for incorporating journaling into your self-care routine. Whether you're curious about AI therapy alternatives, looking for mental health support tools, or wanting to optimize your journaling practice, our conversations extend beyond the written page into meaningful audio experiences that offer evidence-based insights in an accessible, compassionate format. Join us as we navigate the intersection of technology and mental well-being, helping you track your emotional journey and build lasting resilience through the power of

Frequently Asked Questions

How long is this episode of Data Science بالعربي?

This episode is 13 minutes long.

When was this Data Science بالعربي episode published?

This episode was published on January 22, 2026.

What is this episode about?

يدور موضوع الحلقة حول ثلاث أدوات "ثقيلة" ومتقدمة تهدف إلى إدارة البيانات الضخمة(Big Data) وضمان جودتها: PySpark، وDVC، وGreat Expectations.1. PySpark (سيد البيانات الضخمة)الغرض الرئيسي: معالجة البيانات الضخمة (Petabytes) من خلال المعالجة الموزعة...

Can I download this Data Science بالعربي episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!