Практические задания (что вам нужно сделать)
Как называть Pull Request
Правило для практических работ: <PR>_<номер_группы>_<фамилия_инициалы(транслитом)>_<номер_задания>
Пример: PR_7382_Glazunov_SA_2
Общая идея
Практические задания курса преследуют несколько целей:
попробовать алгоритмы из разных категорий
Опыт в сравнении различных алгоритмов
*Написание алгоритма с нуля
Практические работы
Для группы 0306 дополнительное условие, которое запрещает использовать сторонние библиотеки для обучения с подкреплением. То есть нельзя использовать sb3(и все его подвиды), rllib, torchrl, skrl, rsl_rl и так далее
Практическая работа №1: Реализация DQN для среды CartPole-v1
Окружение: Cartpole
Задания для эксперимента:
Измените архитектуру нейросети (например, добавьте слои).
Попробуйте разные значения gamma и epsilon_decay.
Проведите исследование как изначальное значение epsilon влияет на скорость обучения
Практическая работа №2: Реализация PPO для среды MountainCarContinuous-v0
Окружение: mountain_car_continuous
Задания для эксперимента:
Измените длину траектории (steps).
Подберите оптимальный коэффициент clip_ratio.
Добавьте нормализацию преимуществ.
Сравните обучение при разных количествах эпох.
Практическая работа №3: Реализация SAC для среды Flappy Bird
Окружение: Flappy Bird – является нестандартным, требуется дополнительно установить
Задания для эксперимента:
Измените значение alpha для контроля энтропии.
Реализуйте автоматическую настройку alpha.