EPISODE · Apr 19, 2025 · 55 MIN
[115] על RLHF ומודלי שפה גדולים
from ExplAInable · host Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang
בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.
NOW PLAYING
[115] על RLHF ומודלי שפה גדולים
No transcript for this episode yet
Similar Episodes
May 11, 2026 ·21m
May 10, 2026 ·20m
May 9, 2026 ·18m
May 8, 2026 ·25m
May 7, 2026 ·18m
May 3, 2026 ·24m