Multi-arm Bandits Exploration

This is an bandit experiment that implements different exploration techniques for a 10-arm testbed as described in the Reinforcement Learning Book by Sutton & Barto.

The exploration techniques covered include:

ε-greedy
Optimistic Initialization
UCB Exploration
Boltzmann (Softmax) Exploration

This experiment further compares the different exploration techniques and concludes on which is better to use in different settings.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
plots		plots
src		src
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

plots

plots

src

src

.gitignore

.gitignore

README.md

README.md

Repository files navigation

Multi-arm Bandits Exploration

About

Releases

Packages

Languages

ruqoyyasadiq/deep_RL-multi-arm-bandit-exploration

Folders and files

Latest commit

History

Repository files navigation

Multi-arm Bandits Exploration

About

Topics

Resources

Stars

Watchers

Forks

Languages