====== Практические задания (что вам нужно сделать) ====== ===== Как называть Pull Request ===== Правило для практических работ: _<номер_группы>_<фамилия_инициалы(транслитом)>_<номер_задания> Пример: PR_7382_Glazunov_SA_2 ===== Общая идея ===== Практические задания курса преследуют несколько целей: * попробовать алгоритмы из разных категорий * Опыт в сравнении различных алгоритмов * *Написание алгоритма с нуля ===== Практические работы ===== Для группы **0306** дополнительное условие, которое запрещает использовать сторонние библиотеки для обучения с подкреплением. То есть нельзя использовать sb3(и все его подвиды), rllib, torchrl, skrl, rsl_rl и так далее ==== Практическая работа №1: Реализация DQN для среды CartPole-v1 ==== Окружение: [[https://gymnasium.farama.org/environments/classic_control/cart_pole/|Cartpole]] Задания для эксперимента: - Измените архитектуру нейросети (например, добавьте слои). - Попробуйте разные значения gamma и epsilon_decay. - Проведите исследование как изначальное значение epsilon влияет на скорость обучения ==== Практическая работа №2: Реализация PPO для среды MountainCarContinuous-v0 ==== Окружение: [[https://gymnasium.farama.org/environments/classic_control/mountain_car_continuous/|mountain_car_continuous]] Задания для эксперимента: - Измените длину траектории (steps). - Подберите оптимальный коэффициент clip_ratio. - Добавьте нормализацию преимуществ. - Сравните обучение при разных количествах эпох. ==== Практическая работа №3: Реализация SAC для среды Flappy Bird ==== Окружение: [[https://github.com/markub3327/flappy-bird-gymnasium|Flappy Bird]] -- является нестандартным, требуется дополнительно установить Задания для эксперимента: - Измените значение alpha для контроля энтропии. - Реализуйте автоматическую настройку alpha.