EPISODE · Feb 16, 2022 · 34 MIN
[11] Proximal Policy Optimization מה זה
from ExplAInable · host Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור הSOTAעד שמגיעה גישה חדשה שטורפת את הקלפים.לכן מעניין דווקא לדבר עלPPOשנשאר הגישה הדומיננטי בReinforcement learningכבר חמש שנים, ולא נראה שהוא הולך לשום מקום.נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
NOW PLAYING
[11] Proximal Policy Optimization מה זה
No transcript for this episode yet
Similar Episodes
Apr 29, 2026 ·17m
Apr 26, 2026 ·21m
Apr 26, 2026 ·21m
Apr 25, 2026 ·18m
Apr 25, 2026 ·18m
Apr 23, 2026 ·41m