EPISODE · Feb 16, 2022 · 34 MIN
[11] Proximal Policy Optimization מה זה
from ExplAInable · host Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור הSOTAעד שמגיעה גישה חדשה שטורפת את הקלפים.לכן מעניין דווקא לדבר עלPPOשנשאר הגישה הדומיננטי בReinforcement learningכבר חמש שנים, ולא נראה שהוא הולך לשום מקום.נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
What this episode covers
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור הSOTAעד שמגיעה גישה חדשה שטורפת את הקלפים.לכן מעניין דווקא לדבר עלPPOשנשאר הגישה הדומיננטי בReinforcement learningכבר חמש שנים, ולא נראה שהוא הולך לשום מקום.נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
NOW PLAYING
[11] Proximal Policy Optimization מה זה
No transcript for this episode yet
Similar Episodes
Jun 11, 2026 ·58m
Jun 6, 2026 ·21m
Jun 4, 2026 ·21m
Jun 2, 2026 ·14m