Deep Deterministic Policy Gradient on PyTorch

Overview

The is the implementation of Deep Deterministic Policy Gradient (DDPG) using PyTorch. Part of the utilities functions such as replay buffer and random process are from keras-rl repo. Contributes are very welcome.

Dependencies

Python 3.4
PyTorch 0.1.9
OpenAI Gym

Run

Training : results of two environment and their training curves:

Pendulum-v0

$ ./main.py --debug

MountainCarContinuous-v0

$ ./main.py --env MountainCarContinuous-v0 --validate_episodes 100 --max_episode_length 2500 --ou_sigma 0.5 --debug

Testing :

$ ./main.py --mode test --debug

TODO

Add batch normalization

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
__pycache__		__pycache__
output		output
.DS_Store		.DS_Store
LICENSE		LICENSE
README.rst		README.rst
ddpg.py		ddpg.py
ddpg.pyc		ddpg.pyc
evaluator.py		evaluator.py
evaluator.pyc		evaluator.pyc
main.py		main.py
memory.py		memory.py
memory.pyc		memory.pyc
model.py		model.py
model.pyc		model.pyc
normalized_env.py		normalized_env.py
normalized_env.pyc		normalized_env.pyc
random_process.py		random_process.py
random_process.pyc		random_process.pyc
test.py		test.py
util.py		util.py
util.pyc		util.pyc

License

TheInfamousWayne/ddpg_torch

Folders and files

Latest commit

History

Repository files navigation

Deep Deterministic Policy Gradient on PyTorch

Overview

Dependencies

Run

TODO

About

Resources

License

Stars

Watchers

Forks

Languages