Герб МГТУ им. Н.Э. БауманаНаучно-техническая библиотека МГТУ им. Н.Э. Баумана

Подробное описание документа

   Статья

Морозов К. А.
   Баланс между использованием большой языковой модели и обучением с подкреплением = Balance between Using a Large Language Model and Reinforcement Learning / Морозов К. А. // Наука, технологии и бизнес : материалы 6-ой Межвузовской конференции аспирантов, соискателей и молодых учёных, Москва, 16-18 апреля 2024 года / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М., 2024. - С. 328-334.

В данной статье рассматривается баланс при совместном использование большой языковой модели (LLM) и обучения с подкреплением (RL). Демонстрируются трансформеры, которые стали основополагающими для больших языковых моделей. Обозначается концепт перехода от трансформеров к LLM в рамках использования обучения с подкреплением. Рассматриваются среды, с возможностью эффективного применения LLM и RL, описываются особенности подобных задач. Производится тестирование возможности использования различных больших языковых моделей для сред в виде мира-сетки. Представляются результаты исследования валидности того, чтобы использовать большую языковую модель и обучение с подкреплением в рамках различных задач мира-сетки. Определяется баланс между использования LLM и RL, для различных задач с учетом специфических особенностей сред. В качестве консеквенции работы предоставляется заключение, демонстрируются выводы, выдвигаются суждения о перспективности дальнейших исследований по использованию больших языковых моделей и обучения с подкреплением.
Ключевые слова: обучение с подкреплением, большие языковые модели, обработка естественного языка, трансформеры, нейронные сети
This article explores the balance between using a large language model (LLM) and reinforcement learning (RL). Transformers that have become fundamental to large language models are being demonstrated. The concept of transition from transformers to LLM within the framework of the use of reinforcement learning is outlined. Environments with active applying of LLM and RL are considered, and the features of such tasks are described. The feasibility of using various large language models for grid-world environments is being tested. Presents the results of a study of the validity of using a large language model and learning with reinforcement within the various grid-world tasks. The balance between the use of LLM and RL is determined for various tasks, considering the specific features of the environments. As a consequential work, the conclusion is provided, demonstrates the inferences, judgments are made about the prospects for further research on the use of large language models and reinforcement learning.
Keywords: reinforcement learning, large language models, natural language processing, transformers, neural networks

004.85 Обучение

Статья опубликована в следующих изданиях

с. 328-334
   Наука, технологии и бизнес : материалы 6-ой Межвузовской конференции аспирантов, соискателей и молодых учёных, Москва, 16-18 апреля 2024 года / МГТУ им. Н. Э. Баумана (национальный исследовательский университет). - М. : Изд-во МГТУ им. Н. Э. Баумана, 2024. - 581 с. : ил. - Библиогр. в конце статей. - Книга на русском и английском языках. - ISBN 978-5-7038-6446-3.