Инструменты пользователя

Инструменты сайта


courses:rl:prs

Практические задания (что вам нужно сделать)

Как называть Pull Request

Правило для практических работ: <PR>_<номер_группы>_<фамилия_инициалы(транслитом)>_<номер_задания>

Пример: PR_7382_Glazunov_SA_2

Общая идея

Практические задания курса преследуют несколько целей:

  • попробовать алгоритмы из разных категорий
  • Опыт в сравнении различных алгоритмов
  • *Написание алгоритма с нуля

Практические работы

Для группы 0306 дополнительное условие, которое запрещает использовать сторонние библиотеки для обучения с подкреплением. То есть нельзя использовать sb3(и все его подвиды), rllib, torchrl, skrl, rsl_rl и так далее

Практическая работа №1: Реализация DQN для среды CartPole-v1

Окружение: Cartpole

Задания для эксперимента:

  1. Измените архитектуру нейросети (например, добавьте слои).
  2. Попробуйте разные значения gamma и epsilon_decay.
  3. Проведите исследование как изначальное значение epsilon влияет на скорость обучения

Практическая работа №2: Реализация PPO для среды MountainCarContinuous-v0

Окружение: mountain_car_continuous

Задания для эксперимента:

  1. Измените длину траектории (steps).
  2. Подберите оптимальный коэффициент clip_ratio.
  3. Добавьте нормализацию преимуществ.
  4. Сравните обучение при разных количествах эпох.

Практическая работа №3: Реализация SAC для среды Flappy Bird

Окружение: Flappy Bird – является нестандартным, требуется дополнительно установить

Задания для эксперимента:

  1. Измените значение alpha для контроля энтропии.
  2. Реализуйте автоматическую настройку alpha.