Практические задания (что вам нужно сделать)

Как называть Pull Request

Правило для практических работ: <PR>_<номер_группы>_<фамилия_инициалы(транслитом)>_<номер_задания>

Пример: PR_7382_Glazunov_SA_2

Общая идея

Практические задания курса преследуют несколько целей:

попробовать алгоритмы из разных категорий
Опыт в сравнении различных алгоритмов
*Написание алгоритма с нуля

Практические работы

Для группы 0306 дополнительное условие, которое запрещает использовать сторонние библиотеки для обучения с подкреплением. То есть нельзя использовать sb3(и все его подвиды), rllib, torchrl, skrl, rsl_rl и так далее

Практическая работа №1: Реализация DQN для среды CartPole-v1

Окружение: Cartpole

Задания для эксперимента:

Измените архитектуру нейросети (например, добавьте слои).
Попробуйте разные значения gamma и epsilon_decay.
Проведите исследование как изначальное значение epsilon влияет на скорость обучения

Практическая работа №2: Реализация PPO для среды MountainCarContinuous-v0

Окружение: mountain_car_continuous

Задания для эксперимента:

Измените длину траектории (steps).
Подберите оптимальный коэффициент clip_ratio.
Добавьте нормализацию преимуществ.
Сравните обучение при разных количествах эпох.

Практическая работа №3: Реализация SAC для среды Flappy Bird

Окружение: Flappy Bird – является нестандартным, требуется дополнительно установить

Задания для эксперимента:

Измените значение alpha для контроля энтропии.
Реализуйте автоматическую настройку alpha.