====== Практические задания (что вам нужно сделать) ======

===== Как называть Pull Request =====
Правило для практических работ: <PR>_<номер_группы>_<фамилия_инициалы(транслитом)>_<номер_задания>

Пример: PR_7382_Glazunov_SA_2


===== Общая идея =====
Практические задания курса преследуют несколько целей:

  * попробовать алгоритмы из разных категорий
  * Опыт в сравнении различных алгоритмов
  * *Написание алгоритма с нуля

===== Практические работы =====

<note important> Для группы **0306** дополнительное условие, которое запрещает использовать сторонние библиотеки для обучения с подкреплением. То есть нельзя использовать sb3(и все его подвиды), rllib, torchrl, skrl, rsl_rl и так далее </note>

==== Практическая работа №1: Реализация DQN для среды CartPole-v1 ====

Окружение: [[https://gymnasium.farama.org/environments/classic_control/cart_pole/|Cartpole]]

Задания для эксперимента:

    - Измените архитектуру нейросети (например, добавьте слои).
    - Попробуйте разные значения gamma и epsilon_decay.
    - Проведите исследование как изначальное значение epsilon влияет на скорость обучения

==== Практическая работа №2: Реализация PPO для среды MountainCarContinuous-v0 ====

Окружение: [[https://gymnasium.farama.org/environments/classic_control/mountain_car_continuous/|mountain_car_continuous]]

Задания для эксперимента:

    - Измените длину траектории (steps).
    - Подберите оптимальный коэффициент clip_ratio.
    - Добавьте нормализацию преимуществ.
    - Сравните обучение при разных количествах эпох.

==== Практическая работа №3: Реализация SAC для среды Flappy Bird  ====


Окружение: [[https://github.com/markub3327/flappy-bird-gymnasium|Flappy Bird]] -- является нестандартным, требуется дополнительно установить

Задания для эксперимента:

    - Измените значение alpha для контроля энтропии.
    - Реализуйте автоматическую настройку alpha.