ExplAInable podcast artwork

PODCAST · technology

ExplAInable

תמיר נווה, אורי גורן, מייק ארליכסון והילה פז הרשפנג מארחים מומחים מעולם הבינה המלאכותית. האזינו לשיחות עם חוקרי AI, דאטה סיינטסים, מהנדסי ML ומובילים בתעשייה, שמביאים לכם את האתגרים, המחשבות והתובנות המעניינות ביותר מבפנים.

  1. 156

    Hebatron לפצח את העברית: מאחורי הקלעים של אימון של

    איך לוקחים שפה מורכבת ועשירה כמו עברית ומלמדים מודל בינה מלאכותית לדבר אותה שוטף? ולמה דווקא המודל של אינבידיה הוא זה שניצח את Llama ואת המודלים של IBM במבחן העלות-תועלת?בפרק החדש של אקספלינבל, מייק מארח את שארל ויינברגר (מוביל פיתוח ב-AI Next של PWC) ונעם קייזר (מפתח בצוות) לשיחת עומק על מאחורי הקלעים של פרויקט אימון מודל השפה בעברית: פרויקט ששבר את הרשת עם 30,000 הורדות ו-4 שחרורי גרסאות בשבוע אחד בלבד.בפרק נדבר על:אתגר השפה העברית: למה המורפולוגיה העברית עושה צרות לטוקנייזרים הסטנדרטיים, ואיך מנצחים את זה.מלחמת המודלים: למה הצוות בחר דווקא ב-"נימטרון" (Nemotron) של Nvidia, ולמה מודלים פופולריים כמו Aya, Llama וגרנית נשארו על רצפת חדר העריכה בגלל יחסי דחיסה גרועים.משבר "אפקט הלוס": הרגע המלחיץ שבו מדדי השגיאה ירדו, אבל גם הביצועים צללו ואיך הגדלת ה-Batch ל-16.5 מיליון טוקנים הצילה את הפרויקט.בנצ'מרק מול המציאות: למה ניצחון במבחנים סינתטיים הוא לא תמיד מה שהמשתמשים מחפשים, והתובנות ממבחן הקהל (Arena).תשתיות של אלופים: איך המעבר ממעבדי H200 ל-Blackwell 300 החדשים של AWS חתך את זמני האימון פי 7 והוזיל את העלויות לעשרות אלפי דולרים בודדים.איך נכנסים לתחום? הטיפים של ישראל ונועם למי שרוצה לפתח קריירה באימון מודלים למה מיינדסט מחקרי ושליטה בתשתיות (Docker, Sharding, AWS) חשובים לא פחות מאלגוריתמיקה.

  2. 155

    [156] בני-נוער ולמידת מכונה: איך יראה הדור הבא של הדאטה סיינטיסטים

    בפרק 156, תמיר מייק והילה מתכנסים לענות על השאלה הבוערת: איך נוכל לעודד בני-נוער ללמוד את מקצועות ה STEAM. האם רובוטי גרוטאות בעיצוב אישי, או קיצורי דרך מתמטיים בטיקטוק יכולים לעזור לנערות ונערים להיכנס לתחום? נדבר על שלוש סוגי המניעים ללמידה: סקרנות, חשיבות היסודות, והערך העצמי, ונתהה האם תוספת ה- A למקצועות ה-STEAM היא שתחולל את המהפך. האם נצטרך מתמטיקאים עוד 50 שנה? האם GenAI גורמת לנערות ונערים להתקרב יותר או פחות לקוד? ומתי נזכה לראות שיעור של תמיר בלייב? כל זאת - בפרק!

  3. 154

    [155] Diffusion Language Models

    הפרק עוסק במודלי דיפוזיה ליצירת טקסט (DLMs), המאומנים לג'נרט טקסט מתוך רעש (ג'יבריש).להבדיל מעולם התמונות שבו רעש הוא טבעי, בעולם השפה ייצוג הרעש מורכב יותר בשל אופייה הדיסקרטי של השפה. קיימות שלוש גישות מרכזיות בתחום: הגישה הרציפה (המרעשת את האמבדינגס), הגישה הדיסקרטית (המחליפה טוקנים בג'יבריש) או ממסכת אותם), וגישת ה-Block Diffusion המשלבת חיזוי אוטוגרסיבי עם דיפוזיה. היתרון המרכזי של מודלי דיפוזיה הוא מהירותם הרבה לעומת מודלים אוטוגרסיביים, שכן הם מסוגלים לחזות בלוקים שלמים של טוקנים במקביל במקום לחזות טוקן אחר טוקן. למרות הפוטנציאל, המודלים הקיימים כיום עדיין מוגבלים מבחינת איכות הטקסט שהם מייצרים, ואין כרגע מודלי דיפוזיה גדולים מאוד מאות מילאירדי פרמטרים שמסוגלים להפגין ביצועי ברי השוואה עם LLMs בגדלים שונים

  4. 153

    [154] על Physical AI: מתי הומנואידים של טסלה ושוטף-שואב יחלקו foundational model

    יצא לכם לתהות מתי הומנואידים של טסלה ושוטף-שואב של שיאומי ישתמשו באותו ה- foundational model?אחרי שלושה פרקים ברימוט, אקספליינבל חוזרת לסטודיו, ובפרק 154 תמיר והילה צוללים ל- Physical AI. בפרק נבדיל בין 4 הקטגוריות של רובוטים, נבין למה צצו foundational models לתמונות לפני טקסט, איזה חיישן יכול לעזור לרובוט שוטף כלים להבדיל בין זכוכית לקריסטל, ואיך הרגולציה עשויה להשפיע על תפוצה רחבה של הומנואידים. נפרק את מה שעומד מאחורי מודלי VLA (ויז׳ן, שפה, ו-action), ונבין מה צריך להשתנות עד שנוריד משקולות לשוטף-שואב מ Huggingface. אז - האם סימולציות יוכלו לקדם אותנו לעבר מספיק training data? איך מגדירים טוקן בפעולות מוטוריות? ואיזו ענקית קראה למודל ה VLA שלה על שם דמות מפתיעה משומרי הגלקסיה?כל זאת, בפרק!אתר mAIk Education של תמיר: https://www.maik-education.com/סדנאות לבתי ספר: https://www.maik-education.com/for-Israelschools סדנאות רובוטים לחברות (לעובדים או לילדי העובדים): https://www.maik-education.com/for-Israelcompanies 00:00 חוזרים להקליט באולפן!01:17 ארבע משפחות של רובוטים03:40 מתי foundational models נהיו שם-דבר06:46 מולטי-מודאליות של טקסט, תמונה, ופעולה: VLA11:35 על הinput וה-output של מודלי VLA 17:05 אז מה יש לנו היום בשוק20:04 החסם האנרגטי 

  5. 152

    [153] למידה אדוורסריאלית

    מה הקשר בין הרעלת training data להורדת הסבירות ל- end of text token?בפרק 153 של אקספליינבל, אורי ומייק מארחים את ד״ר רז לפיד ואילון מזרחי לשיחה על למידה אדוורסריאלית. לא זו מארכיטקטורת GAN, אלא כזו שגורמת למודלי LLM לצטט את החוקה האמריקאית ולבזבז יותר מדי טוקנים. בפרק למדנו על תקיפות שמתחילות בwhitebox עם מודל opensource ונודדות למודלים סגורים, תקיפות פיזיות על מערכות סגורות שאומנו לזיהוי בני אדם, ואיך אפשר להתמודד עם מתקפה שמורידה את הסבירות שמודל שפה יוצא end of text token. אז האם אייג׳נטים שמשתמשים במודל סגור יותר בטוחים מכאלו שמשתמשים במשקולות מhugging face? איך תוקפים מרעילים תוצאות כשכל מה שיש להם הוא גישה ל training data? האם אורי ורז יפתחו עסק צדדי של הדפסת חולצות שיגרמו לנו להיות בלתי נראים?ה scholar של קרליני: https://scholar.google.com/citations?user=q4qDvAoAAAAJ&hl=enהגנה "לא מפוקחת" שהתקבלה ל ICCV: https://openaccess.thecvf.com/content/ICCV2025W/SafeMM-AI/html/Mizrahi_Pulling_Back_the_Curtain_Unsupervised_Adversarial_Detection_via_Contrastive_Auxiliary_ICCVW_2025_paper.htmlהתקפת black box על object detectors שהתקבלה ל - ECML: https://arxiv.org/abs/2303.04238

  6. 151

    [152] ביו-האקינג כמו דאטה סיינטיסט

    מה הקשר בין התפלגות פוסטריורית של בדיקות גנטיות לבריאן ג׳ונסון? השבוע באקספליינבל, אורי פותח מצלמה ומספר על ביו-האקינג מנקודת מבט קצת אחרת (ספוילר: בלי האקרים). ננסה להבין מה קורה כשמנסים לתשאל ריצוף גנום עם SQL, ואיך רופאים מגיבים לגישה "דאטאית" לבריאות. מה אפשר ללמוד (ומה פחות) מהשגרה הקיצונית של בריאן ג׳ונסון, למה ניסויים בלי קבוצת ביקורת הם בעייתיים יותר ממה שנדמה. ואפילו - האם בדיקה של 300$ יכולה להסביר למה צריך יותר חומר הרדמה אצל רופא שיניים?

  7. 150

    [151] עקבות של רעשי תיוג עם ד״ר שמואל חיון

    השבוע באקספליינבל אנחנו עוברים למתכונת רימוט ומארחים את ד״ר שמואל חיון, חוקר AI בכיר בהירונדו, שיספר לנו על העקבות שתיוג לא נכון משאיר לנו בזמן אימון המודל. הבנו איך טעות סיווג בהקלטה עם קשר טמפורלי קשורה לקלסיפיקציה של חתולים, ומתי סטטיסטיקות על פיצ׳רים כבר לא יכולות לעזור לנו במציאת טעויות סיווג (רמז: תמונות). העמקנו בהשפעה של דוגמא עם סיווג לא-נכון על loss של דוגמא אחרת, ואיך מודאליות שונה תשתמש אחרת באותה ליבה אלגוריתמית למציאת הרעשים.המאמרים שהוזכרו בפרק:שערוך יעיל של data influence למציאת שגיאות תיוגסקירת מגוון שיטות לחישוב מקורב של data influence00:00 היי שמואל, חוקר AI בכיר בהירונדו02:40 חשיבות איכות הדאטה וכלב שמסווג כחתון07:35 מבדיקה ידנית ועד קרבה סמנטית: איך להתמודד עם רעשי סיווג13:33 מודאליות ותיוגים: איפה אנחנו הכי פגיעים18:45 שגיאות תיוג נפוצות22:44 איך לומדים ביחד ולחוד עבור מודאליות שונה32:29 תוצאות בשטח35:48 איך ללמוד עוד

  8. 149

    [150] לסקור מאמרים כמו מייק

    בפרק 150 של אקספליינבל, ולכבוד הסקירה של המאמר ה-555 של מייק, הסוד נחשף: מי הם הכותבים הסודיים מאחורי המאמרים (ואיך זה עוזר לקריירה שלהם). נבין מה הקשר בין הנוסחה של log likelihood לפסילת מאמרים, ואיך לדעת איזה מאמר לקרוא כשאין לנו מנחה או משימה מוגדרת בעבודה. נבדוק מהם הטיפים המובילים שעזרו למייק להפסיק לקרוא 85% מתוך 3000 המאמרים ששקל לסקור, ואיך שיתופי פעולה עם דאטה סיינטיסטים מתחילים הפכו להיות הסקירות האהובות עליו.פרק 150 שיצליח להעביר לכם חצי שעה שלמה (או 20 דקות על מהירות x1.5) - זמין עכשיו בכל הפלטפורמות!קסניה בטוויטר: https://x.com/TheTuringPostקמרון וולף: https://substack.com/@cwolferesearchנתן למברט: https://substack.com/@natolambert סבסטיאן רסצ׳קה: https://substack.com/@rasbt00:00 מחוסרים מתמטיים בתואר שני בטכניון ועד לקריאה של 3000 מאמרים04:34 טקסונומיה של מידע: איך לבחור מה לסקור10:43 להיכשל מהר: איך לסנן 85% מהאמרים ביעילות18:19 שיתוף הפעולה הסודי עם סוקרים וסוקרות מהתעשייה, ואיך זה מקדם אותם21:59 הסקירה הכי גרועה שמייק כתב26:07 איך לשתף פעולה עם מייק לקראת הסקירות הבאות שלו ומה אפשר ללמוד מזה

  9. 148

    [149] למה לא רואים אלגוריתמים גנטיים ב-ChatGPT

    למה אנחנו לא רואים אלגוריתמים גנטיים בChatGPT?היום באקספליינבל, הילה ותמיר בחנו אלגוריתמים גנטיים כתשובה לפונקציית מטרה שאינה גזירה, מעולמות הסייבר ועד reinforcement learning. האם אלגוריתם פשוט שיכול לייצב מטוטלת ולפתור בעיית knapsack יוכל לעזור לנו באופטימיזציה של רשתות גדולות? בפרק נדבר על חשיבות יצירת Generation Zero בעולם בעיה מורכב, לעומת מקרים בהם כל ניחוש התחלתי הוא טוב, איך בעיה קומבינטורית יכולה להפוך למערך של מערכים, והאם יש סיכוי שנראה יותר אלגוריתמים גנטיים באופטימיזציה של מודלי שפה גדולים.00:00 בעיית תיק הגב: איך לבנת זהב קשורה לפונקציה שאינה גזירה?02:50 איך אלגוריתם גנטי עובד07:22 אלגוריתמים גנטיים בעולם ה Reinforcement Learning11:13 למה אי אפשר להשתמש באלגוריתמים גנטיים ברשתות גדולות יותר13:57 איך ללמוד עוד על הנושאבעיית Knapsack https://he.wikipedia.org/wiki/%D7%91%D7%A2%D7%99%D7%99%D7%AA_%D7%AA%D7%A8%D7%9E%D7%99%D7%9C_%D7%94%D7%92%D7%91 בעיית cartpole בעזרת אלגוריתמים גנטיים: https://gsurma.medium.com/cartpole-introduction-to-reinforcement-learning-ed0eb5b58288 הפטנט המשלב אלגוריתמים גנטיים של חברת זיסקיילר: https://patents.google.com/patent/US20250307332A1/en

  10. 147

    [148] עושים רוסט לסילבוס של הרווארד

    אם למדתם את התואר השני שלכם לפני 2018, כנראה שהוא לא היה בדאטה סיינס. אבל מאז, האקדמיות התחילו להציע לצד לימודי דיסיפלינות כמו מתמטיקה ומדמ״ח, גם תארים שניים מונחי מקצועות, ובניהם גם דאטה סיינס. והקולגות שלכם והאנשים שתנהלו שלמדו אחריכם? ייתכן מאוד שהם השתתפו בתארים כאלו.השבוע באקספליינבל, אורי והילה פתחו בלי פילטרים את 24 הקורסים שהילה בחרה במסגרת לימודיה בהרווארד. בדקנו איך כלכלה קפיטליסטית משפיעה על האיכות (והכמות) של קורסי בחירה, מהי החשיבות האקדמית בפקולטה לשילוב פרויקטים עם גופים ממשלתיים כמו נאס״א, מי הפרופסור שהוריד נקודות על קומיטים עמוסים מדי ב-GitHub, ולמה המרצים שלה חשבו שבניית קורס בUdemy מייצר דאטה סיינטיסטים יותר טובים. הפרק המלא עכשיו בכל הערוצים, ואנחנו לא יכולים להבטיח שלא יהיו בחני פתע בהמשך. אם עוד לא ראיתם את פרק 142, השקרים שUMAP מספר לנו - הנה הוא: https://open.spotify.com/episode/7JhkmVAchJCuJmBflJI6Vq?si=iabQasycRsa4DCVzIwYihw פרק 136 על הורדת מימדים בלווינים של נאס״א עם מייק והילה:https://open.spotify.com/episode/5airSjSy665VXZ2tImf1vE?si=3-jAQ7JSTSCNoCFXPgbs0A הסילבוסים של כל הקורסים מהתואר בData Science: CSCI 29, Advanced Python for Data Science:  https://www.scribd.com/document/798907961/syllabus-15 CSCI 106, Data Modeling: https://harvard.simplesyllabus.com/en-US/doc/klanr3gi3 CSCI 109A, Introduction to Data Science: https://harvard-iacs.github.io/2020-CS109A/ CSCI E-82, Advanced Machine Learning, Data Mining, and Artificial Intelligencehttps://harvard.simplesyllabus.com/en-US/doc/87qroqsdw CSCI E-88, Principles Of Big Data Processing: https://www.coursehero.com/file/30149735/BDP-Syllabus-Spring-2018pdf/ ISMT E-161, Computational Bayesian Inference: https://harvard.simplesyllabus.com/en-US/doc/mknirmekw CSCI 89, Introduction to Deep Learning: https://harvard.simplesyllabus.com/en-US/doc/orl05sdoq CSCI E-89b, Introduction to Natural Language Processing: https://harvard.simplesyllabus.com/en-US/doc/dy3xgo9om ISMT E-136, Time Series Analysis with Python: https://harvard.simplesyllabus.com/en-US/doc/tn6vfy88u MATH 156, Mathematical Statistics: https://harvard.simplesyllabus.com/en-US/doc/8zojz55h6 CSCI 597, Data Science Precapstone + CSCI E-599a Data Science Capstone: https://harvard.simplesyllabus.com/en-US/doc/xkxh8b79b ספר של הילה עם פרופסור הנסטוק: https://www.amazon.com/Supercharged-Coding-GenAI-practices-Copilot/dp/1836645295קורס של הילה ביודמי עם פרופסור גורלין: https://www.udemy.com/course/apds-intro-to-advanced-python-for-mlops-and-data-science/?srsltid=AfmBOorNj_xL3x8JCmTXR3KDIgp01faF9uZryC8wFbpLw_fpcou1jyse הספר Mathematical Statistics https://www.amazon.com/Mathematical-Statistics-Data-Analysis-Rice/dp/8131519546/ref=tmm_pap_swatch_0 00:00 תואר שני שני בהרווארד01:01 מכלכלה קפיטליסטית של קורסי בחירה לארכיטקטורה של טרנספורמר במבחן אמצע04:13 ארבע וחצי שנים לתואר שני אחד6:48 חשיבות הארטיקולציה והפרזנטציה09:47 פול סטאק דאטה סיינס16:59 עוד קורסים במדמ״ח (או: כמה הילה קיבלה ברשתות תקשורת)20:10 אז מה חסר ומה מיותר23:59 הטיפים לדור העתיד

  11. 146

    [147] הוגן או מדויק עם נורית כהן אינגר

    דאטה סיינטיסטים יספרו לנו בהתלהבות על איך הם פותרים class imbalance, אך מה לגבי imbalance של משתנים דמוגרפיים?השבוע באקספליינבל, אירחנו בשנית את נורית כהן אינגר כדי להבין האם מודל שאינו הוגן יכול להיות מדויק. נזכרנו בסקנדל של מודל COMPAS לחיזוי פשיעה חוזרת של עצורים בארה״ב, שחזה false positives פי 2 בקרב אוכלוסיה אפרו-אמריקנית. עמדנו על ההבדלים בין הוגנות קבוצתית לבין הוגנות אינדיבידואלית, ואיך לעצב מודל הוגן יותר בשלב הדאטה, האימון, והריצה. אז מודדים היום הוגנות של מודלי שפה? האם פייריות היא פיצ׳ר או מטריקה? ואיך מייק והילה הצליחו להשמיץ שוב את שיטת SMOTE? כל זאת ועוד - בפרק!

  12. 145

    [146] ההאקרים שעוזרים לסם אלטמן

    כדאטה סיינטיסטים, אנחנו מאוד רגישים ל Jailbreaking וחולשות במודלי שפה, עד כדי כך שאנחנו עלולים לשכוח שהמוצרים שאנחנו בונים פגיעים גם לחולשות אבטחה סטנדרטיות. השבוע בexplAInable הזמנו את רועי פז, Principal AI Security Researcher שמקבל צ׳קים כדי למצוא פגיעויות באפליקציות LLM. הבחנו בין חולשות במודל לחולשות אפליקטיביות, הגדרנו מונחי בסיס כמו Sandbox, Lateral Movement, וניסינו להבין מה המוטיבציה של חברות כמו OpenAI לתגמל האקרים ולשלם להם כסף על פגיעויות שהם מוצאים במודל. שמענו גם על אייג׳נטים שעוזרים להאקרים לכתוב מתקפות מתוחכמות יותר, ועם אלו חולשות אין לנו סיכוי לקבל צ׳ק בתוכניות Bug Bounties של מודלי שפה גדולים. כל זאת ועוד - בפרק!לינקדאין של רועי פז: https://www.linkedin.com/in/roy-paz/ תוכנית הבאג באונטי של OpenAI שכבר שילמה ל330 האקרים: https://bugcrowd.com/engagements/openai 

  13. 144

    [145] פרק סיכום שנת 2025

    בשבוע האחרון של שנת 2025 אנחנו ממשיכים את מסורת סיכום השנה שלנו. אורי והילה תהו אם חזרנו להיות סטטיסטיקאים, למה code generation נהיה מעולה אבל פילטר הספאם של גוגל עובד פחות טוב, ומה הקשר בין הבייסליין החדש בכתיבת אימיילים לעריכת וידאו. הכרזנו על השנה כשנת ה-consolidation, תהינו מה התרומה שלנו כ- Data Scientists להנדסת AI, והאם בשנת 2026 נתחיל לפגוש ביוזרים סינתטיים. כל זאת ועוד - בפרק!

  14. 143

    [144] מדיה גנרטיבית בגוגל עם שי אלון

    השבוע בexplAInable, אירחנו את שי אלון, אוונגליסט סטארט-אפים בגוגל קלאוד ושמענו על הכלים השונים למדיה גנרטיבית (בעיקר תמונות ווידאו) מבית היוצר של גוגל. ניסינו להבין מה הקשר בין אורך ה-Context Window לסרט הוליוודי באורך מלא, איך ההתחלה מייצור ה-ending frame מעלה את איכות הסרטונים, מה גרם ל Notebook LM להפוך ממוצר נסיוני להצלחה מסחררת, וגם איך נוכל להשתמש בכלים האלו בעצמנו.הקורס של שי: https://cloudonair.withgoogle.com/events/startup-school-ai-q4-2025?utm_source=podcast&utm_medium=shaialonהלינקדאין של שי: https://www.linkedin.com/in/shaialon/00:00 היי שי!01:13 מה בתפקיד evangelist בגוגל קלאוד02:30 מדיה גנרטיבית בגוגל05:22 האתגרים וההזדמנויות בג׳נרוט של וידאו15:25 על Notebook LM- מסטארט-אפ פנימי לפודקאסט ששמועים ברכב23:21 על deep research של גוגל27:00 הקורס של שי על מדיה גנרטיבית

  15. 142

    [143] זוויות של בינה מלאכותית עם ד״ר אלישע רוזנצוויג

    השבוע ב-explAInable, ניסינו להבין האם ל-LLM יש בינה אמיתית, יחד עם ד״ר אלישע רוזנצוויג, חוקר בדיקטה ומנחה הפודקאסט ״אלישע והזוויות״. ניסינו להבין אם מבחן טיורינג הוא פרוקסי רע למדידת בינה מלאכותית, איך רלטיביות של ייצוגי embeddings קשורים למעגליות בהגדרות מילוניות, ואיך חוק גודהארט על תבניות סטטיסטיות חזה את זה ש- LLMs ידעו לשקר לנו בצורה מהימנה יותר. האם ה-LLMs שאנחנו מכירים היום יצליחו לקדם אותנו לעבר AGI? האם מולטי-מודאליות יעזרו לנו להגיע לבינה אמיתית? ואיך רבנים יכולים להשתמש כבר היום במערכות RAG על פסיקות קודמות? כל זאת ועוד- בפרק!

  16. 141

    [142] השקרים שUMAP מספר לנו

    למה תמיד כשאנחנו משתמשים בUMAP, קלאסטרים עם אותה כמות נקודות נראים באותו הגודל?השבוע ב-explAInable, מייק והילה צללו לשיטת הויזואליזציה UMAP, שנחשבת לחדשנית ביותר בתחום ומשמשת רבים מאיתנו בהדמיה של נתונים ממימד הגבוה למרחב הטלה של דו-מימד (או תלת-מימד). ניתחנו את משמעות השם של השיטה, ובדקנו איך הנחת התפלגות האחידה שלנו המהווה את הבסיס להטלה במימד הנמוך יכולה לשבש לנו את התוצאות. האם אנחנו באמת יכולים לסמוך על צפיפות הנקודות במרחב ההטלה, האם יכול להיות שאנומליות ימסו לנו לקלאסטרים המרכזיים? כל זאת ועוד - בפרק!לינק לקוד הפתוח של UMAP, שכולל הטמעה של densMAP: https://github.com/lmcinnes/umapלינק למאמר של UMAP בארכיב (עדכון אחרון של המאמר ב-2020):https://arxiv.org/abs/1802.03426בואו להתארח אצלנו כמומחים בפרקים הבאים:https://forms.gle/JQM2zTmeY6cp58AA9פרקים00:00 מתי קווים מקבילים יפגשו?00:51 היי UMAP, שמור לי על שכנים קרובים ונקודות רחוקות בבקשה!02:26 החשיבות העסקית של ויז׳ואליזציות בעלות משמעות03:19 עושים decoding לשם השיטה. 04:55 איך UMAP עובד מתמטית07:54 אוי לא, הנחת ההתפלגות האחידה מסבכת אותנו!08:46 האם הויזואליזציות שאנחנו מייצרים משקרות לנו?11:00 שיפורים של UMAP להתמודדות עם צפיפות משתנה

  17. 140

    [141] מולטי-מודאליות ב-IBM: איך מאמנים מודלי Vision-Language, עם ד״ר אלי שוורץ

    השבוע ב-explAInable אירחנו את ד״ר אלי שוורץ, מנהל קבוצת בינה מלאכותית מולטי מודאלית ב-IBM. ניסינו להבין את חשיבות המולטי-מודליות, למשל בעבודה עם מסמכים הכוללים טבלאות ותמונות, והבנו מה מקומם של מודלים קטנים יותר. אז מהם שלושת הרכיבים בארכיטקטורה שמאפשרים הטלה של תמונות במרחב הטקסט? למה מייק מאמין במודלים קטנים? והאם העתיד נמצא דווקא במודלי דיפיוזיה? כל זאת ועוד- בפרק! לפרק ביוטיוב:  https://youtu.be/AXj6VLAzYEM ללינקדאין של אלי: https://www.linkedin.com/in/elischwartz/ למאמר: https://arxiv.org/abs/2502.09927 למודל הפתוח: https://huggingface.co/ibm-granite/granite-vision-3.3-2b בואו להתארח אצלנו כמומחים בפרקים הבאים: https://forms.gle/tUArnguwPU5KFNKx5   

  18. 139

    [140] סלאשרים של בינה מלאכותית: איך המובילים בתעשייה שלנו משלבים חדשנות מחקרית עם נורית כהן אינגר

    השבוע ב-explAInable אירחנו את נורית כהן אינגר,  דירקטורית Data Science בלושה, ודוקטורנטית בפקולטה למדעי המחשב ומידע בבן-גוריון. ניסינו להבין את המחויבות של מובילים בתעשייה להישאר מעודכנים בחזית המחקר, ובעיקר - איך מצליחים לעשות ״גם וגם״. אז איך תחרות בקאגל יכולה להוביל לשינוי קריירה? איך מייק מצליח לקרוא מאמר כל יום? והאם הטמעה של מערכות ריבוי-סוכנים (multi-agents) זה הכל עניין של קונטקסט אנג׳ינירינג? כל זאת ועוד- בפרק! ללינקדאין של נוריתבואו להתארח אצלנו כמומחים בפרקים הבאים 

  19. 138

    [139] פרוייקטי הבינה המלאכותית שרואים פרודקשן: עם ירון חביב ממקינזי

    השבוע ב-explAInable, אירחנו את ירון חביב וזכינו להצצה נדירה לתפקידו כ Technology Lead במקינזי.ניסינו להבין מה עומד מאחורי הקשיים על חברות ענק לדחוף פרוייקטים GenAI בארגון, והאם יש מקרים חוץ מ-Copilot ו-data extraction שעובדים ללקוחות שלהם. בדקנו מהם ארבעת החלקים של LLM Ops, והאם הם שונים מ-MLOps קלאסי. האם אנחנו בעיצומה של מהפכה כלכלית? או רק שינוי הדרגתי? כל זאת ועוד- בפרק!  

  20. 137

    [138] מתורת המשחקים למודל עם ריבוי-מטרות: עם פרופ׳ איתן פתיה

    השבוע ב-explAInable, אירחנו את פרופ׳ איתן פתיה כדי להבין האם אסטרטגיות מתורת המשחקים יכולות לעזור לנו במודלים מרובי משימות (Multi-task) ומרובי מטרות (Multi-objective). האם ריבוי מטרות בהכרח יעיד על הכללה טובה יותר (generalization)? האם ג׳ון נאש יצליח לשפר החלטות של סוכנים נטולי אגו? ואיך הכל מתקשר ליכולת לשכוח תמונות ו-Jailbreaking - כל זאת ועוד, בפרק!למעבדה של איתן: https://sites.biu.ac.il/en/ethan-fetaya-lab בואו להתארח כמומחים בפודקאסט שלנו: https://forms.gle/Eanqmf6mby2YcXTw9 

  21. 136

    [137] סטארטאפים בעולם של מודלי שפה גדולים: עם אלכסיי ספוזניקוב

    השבוע ב explAInable, אלכסיי ספוזניקוב הגיע לספר לנו על ה-Disruption שמודלי LLM הביאו לעולם הסטארט אפים. דיברנו על השינוי בעולם הגיוסים בעידן בו ה time to market הרבה יותר מהיר, השיפט הטקטוני בשלב הפרה-סיד של סטארטאפים ואבטחת מידע בעידן ה- GenAI. אז האם יש מקום לסטארטאפים בעולם של ענקיות? כל זאת ועוד בפרק!

  22. 135

    [136] מורידים מימדים בלווינים של נאס״א עם הילה פז הרשפנג

    השבוע ב explAInable, הילה פז הרשפנג הגיעה לספר על פרוייקט Compressive Sensing במסגרת התואר השני שלה ב Harvard Extension School, בשיתוף עם נאס״א. נבין מה ההבדל בין מצלמה באייפון לחישה של כדור הארץ ב300 אורכי גל שונים, נבחן הורדות מימדים במרחב הספקטרלי, נדבר על ה Business Value בוויתור על 90% מאורכי הגל, ולמה דרישת הלינאריות גורמת לנו לחפש דווקא פתרונות פשוטים.ללינקדאין של הילה לדף הטיקטוק של הילהבואו להתארח אצלנו כמומחים בפרקים הבאים

  23. 134

    [135] רובוט אמיתי בכמה שורות פייתון עם MAIK-Education

    בפרק הזה מייק ריאיין את תמיר שסיפר על האפליקציה שהחברה maik-education.com שלו מפתחת. מדובר באפליקצייה וובית ייחודית שהינה סביבת Reinforcement Learning הניתן להפעלה באופן פיסי עם רובוטים אמיתיים שכל אחד יכול ליצור בבית או במשרד. בסביבה ניתן ליצור סוכנים, להגדיר להם התנהגויות בקוד או במודל דיפ אותו ניתן לאמן למיקסום פונקצית תגמול כלשהיא. לאחר שהפרויקט רץ ועובד וירטואלית ניתן לחבר כל סוכן לרובוט בבלוטוס (יש גם ערכות לזה) ויש לייצב מצלמה שתתפוס את זירת הרובוטים ואז כל מה שתיכנתנו או אימנו בסימולציה יקרה בעולם הפיסי. בפרק תמיר הראה פרויקטים כמו רובוטים שיודעים להסתדר בצורה של משולש, רובוט (פוטבול) המנסה להגיע לקו בעוד רובוט אחר המנסה לחסום אותו (AI vs AI), רובוט המגיע לנקודת יעד מבלי להתנגש במכשול או לחילופין כך שיעבור דרך נקודה שתזכה אותו בתגמול חלקי, ועוד. הסביבה מאפשרת לכל אחד ליצור פרויקט רובוטים יצירתי כלשהוא למטרות למידה וכף. 

  24. 133

    [134] האם מודלי שפה מפגינים פסיכולוגיה אנושית - עם בוריס גורליק

    בפרק זה, ד״ר בוריס גורליק — חוקר נתונים, מרצה ורוקח בעברו — מציג היפותזה מרתקת שלפיה מודלי שפה גדולים מפגינים התנהגות אנושית יותר מכפי שמצופה מהם. מכאן השיחה גלשה לפסים פילוסופיים על טיב התבונה, משמעות החיים, והאם אלגוריתמים ישנים כמו SVM עשויים לשוב ולתפוס מקום מרכזי בעולם ה-AI.המאמר של בוריס בו הוא מציג את ההיפותזה : https://www.mdpi.com/2076-3417/15/15/8469ויש לו גם פודקאסט על המזרח התיכון https://anchor.fm/hashavua

  25. 132

    [133] על אימוץ בפועל של AI בארגונים עם שוקי כהן AI21

    בפרק הזה שמחנו לארח את שוקי כהן מ AI21 - החברה הישראלית המובילה בעולם בפיתוח בינה מלאכותית. בשיחה עם שוקי למדנו מניסיונו העשיר וצללנו לנבכי פיתוח בינה מלאכותית: מפיתוח מודל היברידי Jamba, דרך וורדטיון ועד למוצר הדגל שלהם, מאסטרו. ניסינו להבין איך נוצר האקלים היחודי שגרם ל AI לחדור לכל סלון בעולם המערבי תוך חודשים ספורים, ומאידך דנו בשאלה מדוע פרויקטי AI נכשלים ולא מגיעים לפרודקשן. חקרנו את הסוגיות שמעסיקות את כולנו, אבל הפעם ממקור ראשון - מחברה שמפתחת בעצמה את טכנולוגיית הקצה הזו שמשנה את החיים של כולנו. 

  26. 131

    [132] Are evals a scam? עם אלמוג באקו

    סערת טוויטר אחרונה דיברה על evals לאייג׳נטים וLLM באופן כללי - האם מדובר בכלי נדרש או בקידום עצמי של בעלי עניין?אלמוג, מוביל קהילת GenAi, איתנו לדבר על החשיבות והמגבלות של evals - ולמה הם ממש לא פתרון קסם.נדבר על פרקטיקות נפוצות לאיסוף פידבק, וביצוע error analysis ליצירה של agent שיודע להשתפר לאורך זמן. 

  27. 130

    [131] תגליות מדעיות אוטומטיות עם פרופ' טדי לזבניק

    ״אם לניוטון היה רשת נוירונים לעולם לא היינו לומדים את נוסחאות הכבידה״האם החדשנות בAI מאיצה או מאטה את קצב הגילויים המדעיים. נכון כנראה שחוקרים יכולים לכתוב קוד מהר יותר, אבל האם נגלה עוד נוסחאות קצרות ומרשימות כמו תורת היחסות הפרטית או חוקי ניוטון?איתנו פרופסור טדי לזנביק לדבר על האופן שבו בינה מלאכותית משנה את תהליך הגילוי המדעי, תוך מעבר מעבר ללמידת מכונה מסורתית לשיטות המשלבות ידע קודם והיגיון סימבולי. הוא בוחן את תחום ה־רגרסיה הסימבולית (Symbolic Regression) כאמצעי לחשיפת חוקים מתמטיים ניתנים לפרשנות ישירות מנתונים, ומדגיש את תרומתה לחשיפת המשוואות היסודיות של הטבע. הדיון מתמקד גם בשילוב ידע תחומי בתוך מודלי הבינה המלאכותית – במיוחד בגישות המונחות על־ידי עקרונות פיזיקליים – וכן באופן שבו מודלים שפתיים גדולים (LLMs) יכולים לשפר את תכנון הניסויים, להאיץ את ניתוח הנתונים ולהפיק השערות חדשות באופן אוטומטי. לבסוף, הפרק מתעמק בתפקידם של LLMs ועיבוד שפה טבעית (NLP) באוטומציה של סקירות ספרות מדעיות ובפיתוח היגיון פורמלי לבדיקת אמיתות מדעיות, ומדגים כיצד בינה מלאכותית מאיצה את תהליך הסינתזה וההתקדמות המדעית.קישורים לעיון:Mindless statistics Why Most Published Research Findings Are False

  28. 129

    [130] מערכות המלצה עם נועם קניגשטיין

    ראיון עם עם פרופ’ נעם קניגשטיין מאוניבריסטת תל אביב, מומחה למערכות המלצה וחוקר לשעבר המוביל של XBox recommendation במיקרוסופט.מהחלוקה הקלאסית בין מערכות collaborative filtering ו-content based ועד ל-hybrid והמעבר ל-embeddings ו-matrix factorization. נעם יסביר את התפתחות האלגוריתמים, את ההבדלים בין explicit ל-implicit feedback, ואת האתגרים בבחירת ממד המודל. בנוסף נעם מדגיש את הפער בין ביצועים ב-offline test set לבין ביצועים אמיתיים בשטח, ואת הצורך להבין סיבתיות ולא רק קורלציות.דיברנו על ההבדלים בין אלגוריתמים כמו bandits, שימוש ב-organic feedback, והקושי ב-off policy evaluation תוך איזון בין bias ל-variance.פרופ׳ קניגשטיין מספר על יישומים אמיתיים במוזיקה ובסרטים, על ההבדלים ביניהם, ועל החשיבות של הסברים (XAI) כדי להתמודד עם בעיות כמו filter bubbles. לבסוף, הוא מצביע על חזון לקדם את קהילת מערכות ההמלצה בישראל ולחבר בין האקדמיה לתעשייה.

  29. 128

    [129] איך מלמדים היום הנדסת תוכנה - עם אסף שפנייר מהמכללה להנדסה עזריאלי בירושלים

    בעידן שבו כל יום מאיימים עלינו שעוד מעט לא יצטרכו מתכנתים כי AI יחליף את כולנו, האם צריך ללמוד הנדסת תוכנה?ד״ר אסף שפנייר ראש התוכנית לתואר שני בבינה מלאכותית מהמכללה להנדסה - עזריאלי בירושלים, יספר מדוע מדובר ב Fake news.נדבר על החוסרים שAI מתקשה למלא בעולמות הנדסת התוכנה, ועל התפקיד החדש של מהנדס תוכנה בעידן שאחרי ChatGPT.לאסף יש מספר עצות לבוגרים טריים, איך נכון להתבלט בשוק שבו ״פרויקט גמר״ כבר לא מרשים אף אחד - כי תמיד יש את הספק אם הוא נכתב על ידי AI או אדם.ואיך בכלל בודקים הבנה של יסודות תוכנה בסיסיים כאשר כלים כמו Cursor יכולים להשלים את החסר בצורה טובה יחסית.קישור לפודקסט של אסף: מתכנתים מחדש את ההוראה

  30. 127

    [128] AI Coding - עם גילי נחום - AWS

    כולם מדברים היום על קידוד עם AI, בין אם זה עם כלי עזר כמו co-pilot או cursor, השלמה אוטמטית. או כתיבה של תוכניות שלמות עם vibe coding עם כלים כמו lovable או base44.בפרק זה נארח את גילי נחום, לענות על שאלות על עתיד עולם התוכנה והכלים האחרונים.נדבר על שימוש נכון בMCP, על חלוקה של הכלים לדורות וההיררכיה שלהם.ונתן עצות מה המקומות הנכונים לשלב כלים כמו claude code לעומת כלים אחריםץ

  31. 126

    [127] על למידה בהמשכים - Continual Learning - עם עידן משיח

    אימון מודלים זה דבר מורכב, הכולל בחירה חכמה של גודל הבאצ׳ים, ובחירה נכונה של דאטא איכותי ונקי.בפרק זה נדבר עם עידן משיח, סטודנט לתואר שני בתחום על אלטרנטיבה או השלמה ללמידה בבאצ׳ - למידה בהמשכים.נדבר על האתגרים של ״שכחה״ catastrophic forgetting כשחושפים מודל לדאטא חדש.עידן ישטח בפנינו את שלושת האלטרנטיבות ללמידה הדרגתית, הכוללים שינוי של מבנה הדגימה, עדכון המודל ושינויים בפונקציית האופטימיזציה.נשווה בין למידה ישירה ללמידה בהמשכים ונמליץ על טיפים פרקטיים לכל מי שמאמן מודלים על דאטא גדול.

  32. 125

    [126] איך עושים מחקר ופיתוח בעולם ה-GenAI עם עוז ליבנה

    AI מעולם לא היה זמין יותר, ולמרות זאת חברות רבות מתקשות במחקר ופיתוח מוצרים/פיצ'רים מבוססי GenAI. מה הן מפספסות? מדוע זה שונה כל כך מפיתוח תוכנה "קלאסי"? בפרק זה אירחנו את עוז ליבנה, יועץ וארכיטקט GenAI, לשתף מנסיונו ולהסביר על שינוי הפרדיגמה העמוק הדרוש להצלחה במחקר ופיתוח GenAI, ועל ההבדלים המהותיים מפיתוח תוכנה קלאסי - ברמת החשיבה, התכנון, התמודדות עם אתגרים, צורת ההתקדמות, POCs, ומטריקות

  33. 124

    [125] על חוקי הסקייל של מודלי שפה עם ד״ר ג׳וני רוזנפלד מMIT

    בפרק זה היה את הכבוד לארח את ג׳וני, מהכותבים המקוריים של מאמר הscaling laws ב2019 שסלל את הדרך למודלי השפה העצומים של ימינו.חשבתם פעם איך לסם אלטמן היה את האומץ לשפוך מליונים על אימון GPT3 בתקווה שיהיה מודל טוב יותר מאשר מודל באלפי דולרים?תגלית חוקי הסקיילינג (שלהם ג׳וני היה שותף) היתה המנוע העיקרי להבנה איך עובדת הכלכלה של אימון מודלי שפה.נגענו במוטיבציה לכללים, ומדוע אנחנו יכולים לנבא ביצועים של מודל אף על פי שאיננו יודעים איך הוא עובד בדיוק.דיברנו על ההבדל בין ההשפעה של החוקים על שלב האימון לעומת שלב הinference כפי שאנחנו רואים במודלי chain of thought.והאם סקיילינג תלוי בארכיטרטורה של הטרנספורמרים אותה אנחנו מיישמים כיום? או שמדובר בתופעה כללית.סיימנו בדיון על העתיד של התחום, וכיצד אפשר למדוד אוטונומיה של מודלי שפה בצורה דומה בעתיד כדי להבטיח שתהיה שליטה במודלים הבאים.

  34. 123

    [124] איך מאמנים מודלים לשכוח - עם פרופ עודד שמואלי

    זה נראה שרוב הפוקוס הנוכחי הוא על הכנסת דאטא עדכני לדאטאסט של אימון של מודל, ושמירת המודל עדכני.אבל הצד השני של המטבע הזו, הוא לגרום למודל לשכוח נתונים שאינם עדכניים.בין אם מדובר בחוקי מס שהשתנו או בביאסים של הדאטא (כמו דעות קדומות) שהיינו רוצים לשנות, שיכחה היא דבר חשוב.פרופסור עודד שמואלי מהטכניון ידבר איתנו על המורכבות של ״עריכת״ מידע של מודלים, החל ממודלי קלאסיפיקציה פשוטים ועד מודלים מורכבים שפועלים על מספר מודאליות

  35. 122

    [123] על דיפ לרנינג, דאטא טאבולרי וTabStar עם אלן ארזי

    בפרק זה אירחנו את אלן ארזי, מהכותבים של TabStar (יחד עם עילם שפירא ופרופ. רועי רייכארט) - מודל דיפ לרנינג המיועד למידע טבלאי.בניגוד לתמונה, קול וטקסט - במידע טבלאי מודלי דיפ לרנינג הם לא הגישה הרווחת.האתגר הגדול בעולמות הטבלה היא חוסר האחידות, טבלאות יכולות לתאר מגוון רחב של נתונים בלי מכנה משותף ביניהם - ולכן קשה למצוא ״מודל בסיס״ כמו בעולמות התמונה.בטאב סטאר, הכותבים לקחו גישה שמערכת מודלי שפה (ובפרט טרנספורמרים) והשתמשו בשמות העמודות ובתיאור הטקסטואלי של הקטגוריות בשביל לתת למודל קונטקסט.השיטה מראה ביצועים עדיפים על XGBoost כאשר יש מגוון של עמודות טקסטואליות במשימות קלאסיפיקציה.אלן סיפר לנו על האתגרים באיסוף מידע לאימון ועל הצפוי לנו בעתיד בעולמות המידע הטבלאי. 

  36. 121

    [122] על הקשר בין דחיסה ללמידה עם פרופ. רביד זיו

    רביד זיו, לשעבר מהמעבדה של יאן לקון, היום פרופסור בNYU וחוקר פורה בדיפ לרנינג ידבר איתנו על דחיסה ולמידה.בעוד דחיסה מזכיר לחלקנו זיפ, או jpeg - רביד ירחיב על איך רשתות דוחסות מידע בצורה יעילה.נדבר על שיטות כגון next token prediction שמסתבר שמאלצות מודלים ללמוד דחיסה יעילה יותר מאשר masking כמו בBERT.נדבר על חשיבות האוגמנטציה בתהליך האימון - או יותר נכון, חוסר החשיבות כפי שנראה.ונעמיק על הקשר שבין דחיסת מודלים, דחיסת אינפורמציה והמשימות אליהן רוצים לעשות אופטימיזציה

  37. 120

    [121] על אומנות ובינה מלאכותית גנרטיבית - עם מתי מריאנסקי

    מתי מריאנסקי, מוביל קהילת עליית המכונות הפופולארית, אמן ומשתמש נלהב בAI ידבר איתנו על נסיונו.נדבר על המגבלות והדפוסים שנראה שAI נופל אליהם, האם מודל בינה יוכל לייצר את סגנון הקוביזם החדש?ונדבר על ההשלכות של פילטרי הבטיחות על איכות המודלים.לסיום, נדון האם יש טעם ללמוד היום עיצוב גרפי, והאם התחום בדרך לאוטומציה מלאה.

  38. 119

    [120] איך מודלי שפה עובדים טוב גם לא באנגלית - עם גיא רוטמן, גונג

    היום בעידן מודלי השפה הגדולים כשתרגום סימולטני מתאפשר בלייב, זה נראה כאילו מאז ומתמיד ChatGPT ידע לדבר עברית.עד לא מזמן היתה צניחה משמעותית בביצועים של מודלי שפה על שפות שאינן אנגלית.בפרק זה גיא רוטמן, חוקר אקדמי בתחום ובתעשייה ב gong.io ידבר איתנו על אתגרי העבר והווה באימון מודלי שפה רב שפתיים.נדבר על טיפים עכשוויים להתמודדות עם שפות כגון עברית, ועל אתגרי הדאטא.

  39. 118

    [119] איך הגעתי למליוני חשיפות בלינקדין עם AI - עם מיכאל קיסילנקו

    יוצא לנו הרבה לדבר על אייג׳נטים, על מודלי שפה, ועל איך הם עובדים.בפרק זה אנחנו נדבר עם מיכאל קיסילנקו - היזם מאחורי GenDesk, שמגיע שיטתית למליוני חשיפות בלינקדין בעזרת שימוש בAI.מיכאל פיתח מומחיות רבה, ולמד את האלגוריתם של לינקדין מכל הצדדים.פרק מלא תובנות שאסור לפספס

  40. 117

    [118] מענה על שאלות חזותיות VQA - עם פרופ עידן שוורץ

    היום כשמודלי שפה נהיו כ״כ חזקים, אנחנו לוקחים כמובן מאליו את יכולות הבנת התמונה.בפרק זה פרופ. עידן שוורץ מאוניברסיטת בר אילן יספר לנו על ההיסטוריה של התפתחות התחום, על ביאסים בתשובות ואיך מתמודדים איתם ומה הם האתגרים העכשוויים בתחום.ריבוי מודאליות גורם גם לבעיות מסדר שני, כגון ישור הקלטים, מציאת מרחב משותף מייצג, וכמובן מה עושים כאשר יש קונפליקט בין המימד החזותי לטקסטואלי למשל.ב28 למאי ייערץ יום עיון בבר אילן, שם עידן ומיטב המוחות בתחום יציגו את העבודות שלהם.קישורים לעיון:https://biu365-my.sharepoint.com/:f:/g/personal/schwari9_biu_ac_il/Eus14HAcXQBBuS_GhknGbh4Bevs1VixlLgPO0yCgLReY2w?e=GZJDnO

  41. 116

    [117] חיפוש והמלצה 2025 - חוזרים אחורה - סיכום כנס הייסטאק

    אחרי שנתיים ביקרנו שוב בכנס Haystack העוסק בחיפוש והמלצה.נדבר על ההבדלים בין 2025 לשנת 2023 ועל מגמת החזרה לעולם החיפוש הלקסיקוגרפי על חשבון החיפוש הוקטורי.ועל גישותLLM as a judgeהרווחת לאיבליואציה של חיפוש והמלצה

  42. 115

    [116] מתקפות סייבר על מודלי שפה - עם נתן כץ

    מודלי שפה גדולים אמנם עוזרים לפרודקטיביות, אבל גם של ההאקרים.עולם הסייבר השתנה רבות מאז יציאת ChatGPT - מומחים מעריכים שמספר הפריצות גדל פי ארבעה.בפרק זה נתן כץ יסקור לנו ארבע שיטות לניצול חולשות במודל השפה עצמו.נדבר על גניבת מודלים, ״הרעלה״ של סט האימון והרעשה של המודל לביאס עבור מילת אקטיבציה ספציפיתץנתן יחלוק לנו מתובנותיו בlumin AI על תהליך המכירה לCSO בארגון, ונדבר על ההבדלים בין סיכוני open source ל״משקולות פתוחים״לקריאה נוספת:https://owasp.org/www-project-machine-learning-security-top-10/https://owasp.org/www-project-top-10-for-large-language-model-applications/assets/PDF/OWASP-Top-10-for-LLMs-2023-v05.pdf

  43. 114

    [115] על RLHF ומודלי שפה גדולים

    בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.

  44. 113

    [114] קבלת החלטות ארוכות טווח עם פרופ. גיא שני

    יאן לקון, מאבות הAI המודרני מאמין שהעתיד נמצא בתיכנון טווח ארוך (planning) ולא בחיזוי המילה הבאה.פרופסור גיא שני מהפקולטה להנדסת מערכות מידע באוניברסיטת בן גוריון ומוביל קבוצת מחקר בeBay יספר לנו על האתגרים.נדבר על סוגים של אי וודאות במודלים, ושיטות תכנון לאופק מוגדר לעומת אופק לא ידוע.נצלול לעומק הגישות המרקוביות הקלאסיות, כמו POMDP ונשווה מול גישות Reinforcement learning.למי שמעוניין לצלול לפרטים, פרופסור גיא שני והמעבדה שלו הקליטו קורס אונליין חינמי בקישור הבא: https://campus.gov.il/course/bgu-acd-bgu-ai101/

  45. 112

    [113] NVIDIA GTC 2025 - סיכום הכנס

    כנס הGTC של אנבידיה הוא אחד האירועים המרכזיים של עולם הAI.הכנס נערך חמישה ימים והסתיים ב22 למרץ 2025, בפרק זה ננסה לתמצת לכם את עיקרי הדברים בעשרים דקות.וכהרגלנו, נבחון בעין ביקורתית את ההצהרות וההכרזות שהיו בכנס.מה נאמר על רובוטים, דיפסיק, עתיד המניה ומה לא נאמר ובלט בהיעדרו.

  46. 111

    [112] בעקבות המאמר של מטא עם לירון יצחקי אלרהנד

    מעטים המאמרים המתארים בפירוט רב כל כך את האתגרים של יצירת וידאו מטקסט.במאמר הMovieGen של מטא, נכתבו 92 עמודים של המודלים השונים שנדרשים כדי לייצר סרטונים קצרים.בפרק זה לירון יספר לנו על האתגרים הטכניים כמו מגבלת הזכרון, וסוגי הטעויות שניתן להבחין בסרטונים מג׳ונרטים.אנחנו נסקור בקצרה את הגישות שמטא לקחו במאמר שלהם, ונפרק את השיטה לתתי המודלים שמרכיבים את הpipeline הארוך של יצירת סרטונים עם AI.

  47. 110

    [111] מדידת GenAI עם אסף בורד

    להכניס מודלי שפה כמו ChatGPT למערכת, זה יחסית קל ונגיש, עם אלפי דוגמאות ותמחור תחרותי אצל הספקים השונים.אבל למדוד את הביצועים של מודל כזה או אחר נשארת בעיה פתוחה, במיוחד אם משלבים גם מדדים עסקיים.בפרק זה נארח את אסף בורד, שמוביל את מאמצי ה GenAI בחברת Northwestern Mutual והשיק לאחרונה את Multinear.com כקוד פתוח לאבלאוציה.נדבר על חמשת הרכיבים שיש לבדוק כשמנסים להעריך מערכת AI בשלמותה: דאטא, פונקציית המטרה, הפרומפט, הסטאק הטכנולוגי ובדיקות.ונעמיק בהשוואה מול ספריות אחרות וטכניקות מדידה כגון GPT as a judge

  48. 109

    [110] האתגרים בבינה מלאכותית בעולם הפיזי, עם אופיר זמיר מ NVIDIA

    נראה שהבינה המלאכותית כבר כאן, חיה ובועטת - אבל עדיין אין רובוטים מתהלכים ביננו.בעוד מודלי שפה גדולים מגיעים לתוצאות מבחני לשכה מעל העורך דין הממוצע, הם עדיין מתקשים בקיפול גרביים.בפרק זה נארח את אופיר זמיר מNVIDIA שייספר לנו על האתגרים, ועל טכניקות כגוןImitation learning, Simulationועל הכלים שאנבידיה מביאה לשולחן מבחינת חומרה ותוכנה כדי להפוך את החלום על רובוטים למציאות. זו הזדמנות מעולה להזכיר שכנס הGTC השנתי של אנבידיה קורה החודש, ב17 למרץ ואפשר להשתתף אונליין ללא עלות.להרשמהhttps://www.nvidia.com/gtc/?ncid=ref-inpa-481629

  49. 108

    [109] הלוסינציות עם ישי רוזנברג

    כולנו מכירים את התופעה שמודלי שפה גדולים נוטים להמציא דברים שלא היו ולא נבראו. אבל האם אפשר לכמת את איכות המודל לפי רמת ה״הזיות״ שלו?ומה לגבי סוכנים? שם טעות בשלב אחד יכולה להשפיע דרמטית על הכלים שייבחרו בשלבים הבאים?אירחנו את ישי רוזנברג, חוקר בתחום שמוביל את Verax AI לדבר על איך אפשר להתמודד עם בעיות האמינות של מודלים.ומדוע לדעתו צריך להיות דקדקנים במינוח של סוגי הטעויות לפי הקונטקסט הנכון.

  50. 107

    [108] בינה מלאכותית בגובה העיניים עם בר שאלתיאל

    בר שאלתיאל מוביל את קהילת בינה מלאכותית בגובה העיניים המונה מעל 30000 אנשים. בר שיצא בשאלה מהעולם החרדי לפני כשלוש שנים גילה כמעט בטעות את כוחם של מודלי השפה הגדולים כשהתחיל לסייע לסטודנטים לכתוב עבודות אקדמיות.מאז נכנס בר למסע של מחקר והבנה איך המנגנון עובד, ואילו פרומפטים יעילים ביותר.יוצא לנו הרבה לדבר על מודלי שפה גדולים מנקודת המבט של החוקר, ובפרק זה נצלול לראשונה לחוויית המשתמש והbest practices שבר מלמד מהעבודה בשטח.

Type above to search every episode's transcript for a word or phrase. Matches are scoped to this podcast.

Searching…

We're indexing this podcast's transcripts for the first time — this can take a minute or two. We'll show results as soon as they're ready.

No matches for "" in this podcast's transcripts.

Showing of matches

No topics indexed yet for this podcast.

Loading reviews...

ABOUT THIS SHOW

תמיר נווה, אורי גורן, מייק ארליכסון והילה פז הרשפנג מארחים מומחים מעולם הבינה המלאכותית. האזינו לשיחות עם חוקרי AI, דאטה סיינטסים, מהנדסי ML ומובילים בתעשייה, שמביאים לכם את האתגרים, המחשבות והתובנות המעניינות ביותר מבפנים.

HOSTED BY

Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang

CATEGORIES

Frequently Asked Questions

How many episodes does ExplAInable have?

ExplAInable currently has 50 episodes available on PodParley. New episodes are automatically indexed when they're published to the podcast feed.

What is ExplAInable about?

תמיר נווה, אורי גורן, מייק ארליכסון והילה פז הרשפנג מארחים מומחים מעולם הבינה המלאכותית. האזינו לשיחות עם חוקרי AI, דאטה סיינטסים, מהנדסי ML ומובילים בתעשייה, שמביאים לכם את האתגרים, המחשבות והתובנות המעניינות ביותר מבפנים.

How often does ExplAInable release new episodes?

ExplAInable has 50 episodes. Check the episode list to see recent publication dates and frequency.

Where can I listen to ExplAInable?

You can listen to ExplAInable on PodParley by clicking any episode. We provide an embedded audio player for direct listening, and you can also subscribe via your preferred podcast app using the RSS feed.

Who hosts ExplAInable?

ExplAInable is created and hosted by Tamir Nave, Mike Erlihson, Uri Goren, Hila Paz Herszfang.
URL copied to clipboard!