
Season 1 · Episode 12
Ричард Саттон, отец обучения с подкреплением, считает, что большие языковые модели - тупик
Axonic — НАУКА и ТЕХНОЛОГИИ · Axonic
September 29, 20251h 6m
Audio is streamed directly from the publisher (api.mave.digital) as published in their RSS feed. Play Podcasts does not host this file. Rights-holders can request removal through the copyright & takedown page.
Show Notes
Ричард Саттон - отец обучения с подкреплением, лауреат премии Тьюринга 2024 и автор эссе Горький урок. И он считает, что LLM - тупик. После интервью моя лучшая реконструкция позиции Ричарда такая: LLM не умеют учиться по ходу работы, поэтому сколько ни масштабируй, все равно понадобится новая архитектура для непрерывного обучения. И как только она появится, отдельная фаза обучения не нужна - агент будет учиться на лету, как люди и вообще как животные. Этот новый подход сделает нынешние практики с LLM устаревшими.<br /><br />В интервью я максимально честно отстаивал идею, что LLM могут стать фундаментом, на котором возможно обучение на опыте. Искры полетели. Большое спасибо Alberta Machine Intelligence Institute за приглашение в Эдмонтон и за студию с оборудованием. <br /><br />Временные метки:<br />00:00:00 - LLM это тупик?<br />00:13:51 - Используют ли люди обучение подражанием<br />00:23:57 - Эра опыта<br />00:34:25 - Текущие архитектуры плохо обобщают вне распределения<br />00:42:17 - Неожиданности в сфере ИИ<br />00:47:28 - Останется ли Горький урок актуален после AGI<br />00:54:35 - Переход к ИИ