EPISODE · Sep 24, 2024 · 1H 4M
#062 ML Александр Резанов. Генеративный ИИ в компьютерном зрении
from Подкаст о машинном обучении (Machine Learning Podcast)
В гостях выпуска Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске!Ссылки выпуска:Статья на arxiv про вариационные автоэнкодеры (https://arxiv.org/abs/1312.6114)Статья на arxiv про генеративно-состязательные сети (https://arxiv.org/abs/1406.2661)Сайт с фотографиями несуществующих людей (https://thispersondoesnotexist.com/)Статья на arxiv про Latent Diffusion Model (https://arxiv.org/abs/2112.10752)OpenSource интерфейсы для диффузионных сетей:1. AUTOMATIC1111 (https://github.com/AUTOMATIC1111/stable-diffusion-webui)2. ComfyUI (https://github.com/comfyanonymous/ComfyUI)Буду благодарен за обратную связь!Мой телеграм для связи (https://t.me/kmsint)Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" (https://t.me/toBeAnMLspecialist)Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике (https://stepik.org/120924). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов!Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры (https://stepik.org/a/153850?utm_source=mlpodcast&utm_campaign=ep_62).Выразить благодарность можно добрым словом и/или донатом (https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/)
What this episode covers
В гостях выпуска Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске! Ссылки выпуска: Статья на arxiv про вариационные автоэнкодеры ( https://arxiv.org/abs/1312.6114) Статья на arxiv про генеративно-состязательные сети ( https://arxiv.org/abs/1406.2661) Сайт с фотографиями несуществующих людей ( https://thispersondoesnotexist.com/) Статья на arxiv про Latent Diffusion Model ( https://arxiv.org/abs/2112.10752) OpenSource интерфейсы для диффузионных сетей: 1. AUTOMATIC1111 ( https://github.com/AUTOMATIC1111/stable-diffusion-webui) 2. ComfyUI ( https://github.com/comfyanonymous/ComfyUI) Буду благодарен за обратную связь! Мой телеграм для связи ( https://t.me/kmsint) Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" ( https://t.me/toBeAnMLspecialist) Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике ( https://stepik.org/120924). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов! Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры ( https://stepik.org/a/153850?utm_source=mlpodcast&utm_campaign=ep_62). Выразить благодарность можно добрым словом и/или донатом ( https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/)
NOW PLAYING
#062 ML Александр Резанов. Генеративный ИИ в компьютерном зрении
No transcript for this episode yet
Similar Episodes
Mar 26, 2026 ·1m
Jan 2, 2026 ·47m
Dec 21, 2025 ·46m