GitHub - KitStandart/rl_lib: Исследовательская библиотека обучения с подкреплением.

Добро пожаловать в RL_Lib: библиотеку обучения с подкреплением на базе TensorFlow!

RL_Lib - это мощный и гибкий инструмент для обучения алгоритмов с подкреплением с использованием моделей на TensorFlow.
Мы предоставляем реализацию нескольких популярных алгоритмов обучения с подкреплением, которые легко можно интегрировать в собственные проекты или использовать в нашей готовой обертке обучения.

Основные возможности RL_Lib:

Реализация различных алгоритмов: RL_Lib предоставляет готовые реализации DQN, DRQN, QR-DQN и Ape-X. Вы можете использовать их "из коробки" или настраивать под свои нужды.
Интеграция с TensorFlow: Вам не нужно изучать новый фреймворк. Все алгоритмы написаны с использованием TensorFlow, поэтому вы можете использовать свои собственные модели на базе Keras, TensorFlow или любые другие совместимые модели.
Гибкость и настраиваемость: RL_Lib предоставляет множество параметров и опций для настройки обучения алгоритмов под ваши задачи.
Мощные буферы: Для хранения и обработки данных RL_Lib предоставляет различные буферы, включая обычные и приоритетные буферы, а также n-step буферы.
Сохранение этапов обучения: Вы можете сохранять прогресс обучения для последующего использования или воспроизведения.
Использование обертки обучения: Упростите процесс обучения, используя готовую обертку, которая выполняет все необходимые действия в среде для обучения алгоритма. Она автоматически обрабатывает состояния, действия, награды и т. д.

Мы стремимся предоставить простой, но мощный инструмент для обучения агентов с подкреплением, который позволит вам быстро и эффективно исследовать различные алгоритмы и применять их в реальных задачах. Добро пожаловать в RL_Lib - ваш надежный партнер в обучении с подкреплением!

Текущие алгоритмы

DQN и его модификации
DRQN
DDPG

Базовое использование

Создание алгоритма по умолчанию (конфиг можно посмотреть в папке алгоритма):

from rl_lib.src.algoritms.dqn.dqn import DQN

config = {'model_config':{}}
config['model_config']['input_shape'] = env.observation_space.shape
config['model_config']['action_space'] = env.action_space.n

algo = DQN(config)

Создание алгоритма пользовательского алгоритма:

from rl_lib.src.algoritms.dqn.dqn import DQN
from yaml import safe_load

path = #путь к файлу конфигурации

config = safe_load(
            open(
                os_path.join(
                        os_path.dirname(path),"./config.yaml"
                            ),
                "rb")
                )
config['model_config']['input_shape'] = env.observation_space.shape
config['model_config']['action_space'] = env.action_space.n

algo = DQN(config)

Основные методы алгоритма

Сохранение и загрузка сохраненного алгоритма:

algo.save()
algo.load()

Предсказание действия с политикой исследования:

algo.get_action(obs)

Предсказание тестового действия:

algo.get_test_action(obs)

Обучение:

sardsn = (obs, action, reward, done, next_obsv) #именно в таком порядке
algo.add(sardsn)

algo.train_step() #Один шаг грандиентного спуска
algo.copy_weights() #Копирование весов learner -> target (если tau == 1.0)

Обновление внутреннего состояния алгоритма происходит автоматически. \

Для рекуррентной модели drqn метод инициализации состояния:

algo.initial_state()

Пример использования можно посмотреть:

└──examples
    ├──dqn
        └──cart_pole
            ├──config.yaml
            └──dqn_cart_pole.py
    └──drqn
        └──cart_pole
            ├──config.yaml
            └──drqn_cart_pole.py

Будущее проекта

Реализация алгоритмов:
- QR-DQN
- IQN
- A2C
- TD3
- Ape-X
- RD2D
- Bandits
Добавление LaziFrames в буферы сохранения
Написание обертки шагов обучения в среде
Реализация записи статистики обучения

Name		Name	Last commit message	Last commit date
Latest commit History 193 Commits
examples		examples
rl_lib		rl_lib
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

examples

examples

rl_lib

rl_lib

.gitignore

.gitignore

README.md

README.md

init.py

init.py

requirements.txt

requirements.txt

setup.py

setup.py

Repository files navigation

Добро пожаловать в RL_Lib: библиотеку обучения с подкреплением на базе TensorFlow!

Основные возможности RL_Lib:

Текущие алгоритмы

Базовое использование

Создание алгоритма по умолчанию (конфиг можно посмотреть в папке алгоритма):

Создание алгоритма пользовательского алгоритма:

Основные методы алгоритма

Сохранение и загрузка сохраненного алгоритма:

Предсказание действия с политикой исследования:

Предсказание тестового действия:

Обучение:

Обновление внутреннего состояния алгоритма происходит автоматически. \

Пример использования можно посмотреть:

Будущее проекта

About

Releases

Packages

Languages

KitStandart/rl_lib

Folders and files

Latest commit

History

Repository files navigation

Добро пожаловать в RL_Lib: библиотеку обучения с подкреплением на базе TensorFlow!

Основные возможности RL_Lib:

Текущие алгоритмы

Базовое использование

Создание алгоритма по умолчанию (конфиг можно посмотреть в папке алгоритма):

Создание алгоритма пользовательского алгоритма:

Основные методы алгоритма

Сохранение и загрузка сохраненного алгоритма:

Предсказание действия с политикой исследования:

Предсказание тестового действия:

Обучение:

Обновление внутреннего состояния алгоритма происходит автоматически. \

Пример использования можно посмотреть:

Будущее проекта

About

Topics

Resources

Stars

Watchers

Forks

Languages