Ученые упростили и ускорили дообучение нейросетей

04.06.2025, 13:55, Разное
  Подписаться на Telegram-канал
  Подписаться в Google News
  Поддержать в Patreon

Результаты работы были представлены на конференции NeurIPS 2024. Чем больше нейросеть, тем сложнее быстро подстроить ее под новую задачу. Переобучать модель с нуля — это долго и дорого. Поэтому разработчики ищут бюджетные способы адаптировать ее под конкретную задачу, сохранив при этом общее качество исходной версии.

Один из них — донастройка с помощью ортогональных матриц: в отличие от альтернативных подходов, они сохраняют важные признаки исходной модели. Но у популярных вариантов вроде блочно-диагональных или бабочковых (Butterfly) матриц есть недостатки: они либо ограничены, либо требуют множества вычислений.

Исследователи факультета компьютерных наук НИУ ВШЭ и AIRI предложили новый способ построения матриц, который назвали «Группируй и перемешивай» (Group-and-Shuffle). Вместо того чтобы работать со всеми данными, они делят ее параметры на небольшие группы, обрабатывают каждую отдельно и перемешивают между собой. Такая структура оказалась одновременно гибкой и компактной: она помогает модели точнее подстраиваться под задачу, но при этом требует меньше вычислений и памяти.

В НИУ ВШЭ впервые измерили электропроводность полимеров в «космических условиях»

Ученые из МИЭМ НИУ ВШЭ впервые облучили в интервале от нескольких микросекунд до нескольких часов популярные в космической технике полимеры лавсан и каптон при разных температурах и сравнили их эле…

naked-science.ru

На основе GS-матриц исследователи разработали метод GSOFT — новую реализацию ортогональной донастройки нейросетей. В отличие от предыдущих подходов, GSOFT использует меньше параметров, но сохраняет стабильность и качество обучения даже при малом объеме данных. Команда также предложила двусторонний вариант метода — Double GSOFT, который позволяет изменять параметры сразу с двух сторон, повышая гибкость и точность модели.

«Мы придумали, как формировать ортогональные матрицы, используя всего две матрицы специального вида, а не пять-шесть, как в прежних подходах. Это экономит ресурсы и время обучения», — объясняет Николай Юдин, стажер-исследователь Научно-учебной лаборатории матричных и тензорных методов в машинном обучении НИУ ВШЭ.

Исследователи протестировали подход на трех типах задач. В дообучении языковой модели RoBERTa метод работал лучше при сопоставимом числе параметров. В генерации изображений, где модель должна сохранять черты оригинала, но подстраиваться под запрос пользователя, GSOFT и Double GSOFT справились лучше популярных подходов вроде LoRA и BOFT, при этом они требуют меньше памяти и времени на обучение.

Авторы также протестировали свой подход на сверточных нейросетях, которые чаще всего используют для анализа изображений и видео — например, в распознавании лиц. Они адаптировали GS-матрицы даже для тех случаев, когда от модели требуется высокая устойчивость к помехам и искажениям.

«Мы проверили метод в различных сценариях — от языковых и генеративных моделей до устойчивых сверточных сетей. В каждом из них он работал надежно и при меньших затратах ресурсов. Это подтверждает, что мы можем использовать метод для разных целей», — комментирует старший научный сотрудник Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ, руководитель группы “Контролируемый генеративный ИИ” Лаборатории FusionBrain Института AIRI Айбек Аланов.




Смотреть комментарииКомментариев нет


Добавить комментарий

Имя обязательно

Нажимая на кнопку "Отправить", я соглашаюсь c политикой обработки персональных данных. Комментарий c активными интернет-ссылками (http / www) автоматически помечается как spam

ЧИТАЙТЕ ТАКЖЕ

16.06 / В Иране осудили Сталина за «руководящую и направляющую роль» в создании государства Израиль

16.06 / Саломе Зурабишвили обвинила Михаила Саакашвили в подготовке государственного переворота

15.06 / Маск объявил, что передал в Иран две тысячи терминалов Starlink

15.06 / «5-я статья авансом»: в НАТО заявили о готовности немедленно защитить Израиль от неспровоцированной агрессии Ирана

15.06 / Фонд Сороса выдвинул Нетаньяху на Нобелевскую премию мира

15.06 / Учёные не в силах объяснить, почему гранёный стакан Ельцина по ночам сам наполняется водкой

15.06 / Марсоход Perseverance сделал снимок, на котором отчётливо виден герб России

15.06 / Мнение: Немецкая армия предпочитает коренных немцев

14.06 / Германия объявила о немедленной передаче Израилю сотен ракет TAURUS

14.06 / Грета Тунберг организовала в Стокгольме акцию «Вперёд, Иран!»

Политика конфиденциальности - GDPR

Карта сайта →

По вопросам информационного сотрудничества, размещения рекламы и публикации объявлений пишите на адрес: rybinskonline@gmail.com

Поддержать проект:

PayPal - rybinskonline@gmail.com; Payeer: P1124519143; WebMoney – T323003638440, X100503068090, Z399334682366

18+ © 2002-2025 РЫБИНСКonLine: Все, что Вы хотели знать...

Яндекс.Метрика