Season 1 · Episode 34

Искусство масштабирования обучения с подкреплением

October 19, 202516m 41s

Audio is streamed directly from the publisher (api.mave.digital) as published in their RSS feed. Play Podcasts does not host this file. Rights-holders can request removal through the copyright & takedown page.

Original episode page

Show Notes

Искусство масштабирования обучения с подкреплением В этом документе представлено исследование по масштабированию обучения с подкреплением (RL) для больших языковых моделей (LLM). В нем рассматривается отсутствие принципиальных методологий для оценки алгоритмических улучшений при масштабировании RL. Исследование включало в себя обширные эксперименты, в которых было использовано более 400 000 GPU-часов для анализа и прогнозирования поведения масштабирования RL. Исследование показывает, что различные рецепты RL достигают разных уровней асимптотической производительности. Такие факторы, как агрегирование потерь и нормализация, в основном влияют на вычислительную эффективность, а не на предельную производительность. Стабильные рецепты демонстрируют предсказуемые траектории масштабирования, что позволяет экстраполировать данные из небольших прогонов. Авторы предлагают лучший практический рецепт под названием ScaleRL. В статье представлен фреймворк для анализа масштабирования в RL и рецепт для предсказуемой тренировки RL.

← All episodes of Axonic — НАУКА и ТЕХНОЛОГИИ