PLAY PODCASTS
#062 ML Александр Резанов. Генеративный ИИ в компьютерном зрении
Season 5 · Episode 8

#062 ML Александр Резанов. Генеративный ИИ в компьютерном зрении

Machine Learning Podcast · Mikhail

September 24, 20241h 4m

Audio is streamed directly from the publisher (api.mave.digital) as published in their RSS feed. Play Podcasts does not host this file. Rights-holders can request removal through the copyright & takedown page.

Show Notes

В гостях выпуска Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске!<p><br /></p><p>Ссылки выпуска:</p><p><br /></p><p>Статья на arxiv про вариационные автоэнкодеры (<a href="https://arxiv.org/abs/1312.6114">https://arxiv.org/abs/1312.6114</a>)</p><p>Статья на arxiv про генеративно-состязательные сети (<a href="https://arxiv.org/abs/1406.2661">https://arxiv.org/abs/1406.2661</a>)</p><p>Сайт с фотографиями несуществующих людей (<a href="https://thispersondoesnotexist.com/">https://thispersondoesnotexist.com/</a>)</p><p>Статья на arxiv про Latent Diffusion Model (<a href="https://arxiv.org/abs/2112.10752">https://arxiv.org/abs/2112.10752</a>)</p><p>OpenSource интерфейсы для диффузионных сетей:</p><p>1. AUTOMATIC1111 (<a href="https://github.com/AUTOMATIC1111/stable-diffusion-webui">https://github.com/AUTOMATIC1111/stable-diffusion-webui</a>)</p><p>2. ComfyUI (<a href="https://github.com/comfyanonymous/ComfyUI">https://github.com/comfyanonymous/ComfyUI</a>)</p><p><br /></p><p>Буду благодарен за обратную связь!</p><p>Мой телеграм для связи (<a href="https://t.me/kmsint">https://t.me/kmsint</a>)<br /></p><p>Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" (<a href="https://t.me/toBeAnMLspecialist">https://t.me/toBeAnMLspecialist</a>)</p><p><br /></p><p>Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике (<a href="https://stepik.org/120924">https://stepik.org/120924</a>). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов!<br /></p><p>Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры (<a href="https://stepik.org/a/153850?utm_source=mlpodcast&amp;utm_campaign=ep_62">https://stepik.org/a/153850?utm_source=mlpodcast&amp;utm_campaign=ep_62</a>).<br /></p><p><br /></p><p>Выразить благодарность можно добрым словом и/или донатом (<a href="https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/">https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/</a>)</p><p><br /></p>