courses:rl:prs
Содержание
Практические задания (что вам нужно сделать)
Как называть Pull Request
Правило для практических работ: <PR>_<номер_группы>_<фамилия_инициалы(транслитом)>_<номер_задания>
Пример: PR_7382_Glazunov_SA_2
Общая идея
Практические задания курса преследуют несколько целей:
- попробовать алгоритмы из разных категорий
- Опыт в сравнении различных алгоритмов
- *Написание алгоритма с нуля
Практические работы
Для группы 0306 дополнительное условие, которое запрещает использовать сторонние библиотеки для обучения с подкреплением. То есть нельзя использовать sb3(и все его подвиды), rllib, torchrl, skrl, rsl_rl и так далее
Практическая работа №1: Реализация DQN для среды CartPole-v1
Окружение: Cartpole
Задания для эксперимента:
- Измените архитектуру нейросети (например, добавьте слои).
- Попробуйте разные значения gamma и epsilon_decay.
- Проведите исследование как изначальное значение epsilon влияет на скорость обучения
Практическая работа №2: Реализация PPO для среды MountainCarContinuous-v0
Окружение: mountain_car_continuous
Задания для эксперимента:
- Измените длину траектории (steps).
- Подберите оптимальный коэффициент clip_ratio.
- Добавьте нормализацию преимуществ.
- Сравните обучение при разных количествах эпох.
Практическая работа №3: Реализация SAC для среды Flappy Bird
Окружение: Flappy Bird – является нестандартным, требуется дополнительно установить
Задания для эксперимента:
- Измените значение alpha для контроля энтропии.
- Реализуйте автоматическую настройку alpha.