Skip to content

Latest commit

 

History

History
94 lines (93 loc) · 10.5 KB

benchmark.md

File metadata and controls

94 lines (93 loc) · 10.5 KB

Comparing our implementations to Stable Baselines (SB).

algo env_id mean_reward std_reward n_timesteps n_episodes
SB : For.ai SB : For.ai SB : For.ai SB : For.ai
a2c Acrobot-v1 -86.616 : - 25.097 : - 149997: - 1712 : -
a2c BeamRiderNoFrameskip-v4 2809.115 : - 1298.573 : - 150181 : - 52 : -
a2c BreakoutNoFrameskip-v4 384.865 : - 51.231 : - 146703 : - 52 : -
a2c CartPole-v1 499.903 : - 1.672 : - 149971 : - 300 : -
a2c EnduroNoFrameskip-v4 0.000 : - 0.000 : - 149574 : - 45 : -
a2c LunarLander-v2 36.321 : - 135.294 : - 149696 : - 463 : -
a2c MountainCar-v0 -130.921 : - 32.188 : - 149904 : - 1145 : -
a2c MsPacmanNoFrameskip-v4 1581.111 : - 499.757 : - 150229 : - 189 : -
a2c PongNoFrameskip-v4 18.973 : - 2.135 : - 148288 : - 75 : -
a2c QbertNoFrameskip-v4 5742.333 : - 2033.074 : - 151311 : - 150 : -
a2c SeaquestNoFrameskip-v4 746.420 : - 111.370 : - 149749 : - 81 : -
a2c SpaceInvadersNoFrameskip-v4 658.907 : - 197.833 : - 149846 : - 151 : -
acer Acrobot-v1 -90.850 : - 32.797 : - 149989 : - 1633 : -
acer BeamRiderNoFrameskip-v4 2440.692 : - 1357.964 : - 149127 : - 52 : -
acer CartPole-v1 498.620 : - 23.862 : - 149586 : - 300 : -
acer EnduroNoFrameskip-v4 0.000 : - 0.000 : - 149574 : - 45 : -
acer LunarLander-v2 185.210 : - 64.829 : - 149415 : - 248 : -
acer MountainCar-v0 -131.213 : - 32.541 : - 149976 : - 1143 : -
acer MsPacmanNoFrameskip-v4 3908.105 : - 585.407 : - 148924 : - 95 : -
acer PongNoFrameskip-v4 20.667 : - 0.507 : - 148275 : - 57 : -
acer QbertNoFrameskip-v4 18880.469 : - 1648.937 : - 148617 : - 64 : -
acer SeaquestNoFrameskip-v4 872.121 : - 25.555 : - 149650 : - 66 : -
acer SpaceInvadersNoFrameskip-v4 542.556 : - 172.332 : - 150374 : - 133 : -
acktr Acrobot-v1 -91.284 : - 32.515 : - 149959 : - 1625 : -
acktr BeamRiderNoFrameskip-v4 3760.976 : - 1826.059 : - 147414 : - 41 : -
acktr BreakoutNoFrameskip-v4 448.514 : - 88.882 : - 143118 : - 37 : -
acktr CartPole-v1 487.573 : - 63.866 : - 149685 : - 307 : -
acktr EnduroNoFrameskip-v4 0.000 : - 0.000 : - 149574 : - 45 : -
acktr LunarLander-v2 96.822 : - 64.020 : - 149905 : - 176 : -
acktr MountainCar-v0 -111.917 : - 21.422 : - 149969 : - 1340 : -
acktr MsPacmanNoFrameskip-v4 1598.776 : - 264.338 : - 149588 : - 147 : -
acktr PongNoFrameskip-v4 19.224 : - 3.697 : - 147753 : - 67 : -
acktr QbertNoFrameskip-v4 9569.575 : - 3980.468 : - 150896 : - 106 : -
acktr SeaquestNoFrameskip-v4 1672.239 : - 105.092 : - 149148 : - 67 : -
acktr SpaceInvadersNoFrameskip-v4 738.045 : - 306.756 : - 149714 : - 156 : -
ddpg LunarLanderContinuous-v2 244.566 : - 75.617 : - 149531 : - 660 : -
ddpg MountainCarContinuous-v0 91.858 : - 1.350 : - 149945 : - 1818 : -
ddpg Pendulum-v0 -169.829 : - 93.303 : - 150000 : - 750 : -
dqn Acrobot-v1 -88.103 : - 33.037 : - 149954 : - 1683 : -
dqn BeamRiderNoFrameskip-v4 888.741 : - 248.487 : - 149395 : - 81 : -
dqn BreakoutNoFrameskip-v4 191.165 : - 97.795 : - 149817 : - 97 : -
dqn CartPole-v1 500.000 : - 0.000 : - 150000 : - 300 : -
dqn EnduroNoFrameskip-v4 699.800 : - 214.231 : - 146363 : - 15 : -
dqn LunarLander-v2 269.048 : - 41.056 : - 149827 : - 624 : -
dqn MountainCar-v0 -134.507 : - 24.748 : - 149975 : - 1115 : -
dqn MsPacmanNoFrameskip-v4 1781.818 : - 605.289 : - 149783 : - 176 : -
dqn PongNoFrameskip-v4 21.000 : - 0.000 : - 148764 : - 93 : -
dqn QbertNoFrameskip-v4 644.345 : - 66.854 : - 152286 : - 252 : -
dqn SeaquestNoFrameskip-v4 1948.571 : - 234.328 : - 148547 : - 70 : -
dqn SpaceInvadersNoFrameskip-v4 636.618 : - 146.066 : - 150041 : - 136 : -
ppo2 Acrobot-v1 -85.137 : - 26.272 : - 149963 : - 1741 : -
ppo2 AntBulletEnv-v0 2170.104 : - 250.575 : - 150000 : - 150 : -
ppo2 BeamRiderNoFrameskip-v4 1691.072 : - 904.484 : - 149975 : - 69 : -
ppo2 BipedalWalker-v2 265.939 : - 80.994 : - 149968 : - 159 : -
ppo2 BipedalWalkerHardcore-v2 166.481 : - 119.300 : - 149509 : - 154 : -
ppo2 BreakoutNoFrameskip-v4 228.594 : - 141.964 : - 150921 : - 101 : -
ppo2 CartPole-v1 500.000 : 500.000 0.000 : 0.000 150000 : 150000 300 : 300
ppo2 EnduroNoFrameskip-v4 643.824 : - 205.988 : - 149683 : - 17 : -
ppo2 HalfCheetahBulletEnv-v0 2037.586 : - 59.480 : - 150000 : - 150 : -
ppo2 HopperBulletEnv-v0 1944.588 : - 612.994 : - 149157 : - 176 : -
ppo2 HumanoidBulletEnv-v0 1285.814 : - 918.715 : - 149544 : - 244 : -
ppo2 InvertedDoublePendulumBulletEnv-v0 7702.750 : - 2888.815 : - 149089 : - 181 : -
ppo2 InvertedPendulumSwingupBulletEnv-v0 866.989 : - 27.134 : - 150000 : - 150 : -
ppo2 LunarLander-v2 99.676 : - 62.033 : - 149512 : - 174 : -
ppo2 LunarLanderContinuous-v2 128.124 : - 44.384 : - 149971 : - 164 : -
ppo2 MinitaurBulletDuckEnv-v0 5.780 : - 3.372 : - 149873 : - 416 : -
ppo2 MinitaurBulletEnv-v0 11.334 : - 3.562 : - 150000 : - 252 : -
ppo2 MountainCar-v0 -143.501 : - 22.928 : - 149959 : - 1045 : -
ppo2 MountainCarContinuous-v0 91.705 : - 1.706 : - 149985 : - 1082 : -
ppo2 MsPacmanNoFrameskip-v4 2255.090 : - 706.412 : - 150040 : - 167 : -
ppo2 Pendulum-v0 -168.285 : - 107.164 : - 150000 : - 750 : -
ppo2 PongNoFrameskip-v4 20.507 : - 0.694 : - 149402 : - 69 : -
ppo2 QbertNoFrameskip-v4 14510.000 : - 2847.445 : - 150251 : - 90 : -
ppo2 ReacherBulletEnv-v0 17.879 : - 9.780 : - 150000 : - 1000 : -
ppo2 SeaquestNoFrameskip-v4 1782.687 : - 80.883 : - 150535 : - 67 : -
ppo2 SpaceInvadersNoFrameskip-v4 689.631 : - 202.143 : - 150081 : - 176 : -
ppo2 Walker2DBulletEnv-v0 1276.848 : - 504.586 : - 149959 : - 179 : -
sac AntBulletEnv-v0 2354.785 : - 42.501 : - 150000 : - 150 : -
sac BipedalWalker-v2 307.198 : - 1.055 : - 149794 : - 175 : -
sac BipedalWalkerHardcore-v2 100.802 : - 117.769 : - 148974 : - 84 : -
sac HalfCheetahBulletEnv-v0 2021.599 : - 261.582 : - 150000 : - 150 : -
sac HopperBulletEnv-v0 2438.152 : - 335.284 : - 149232 : - 155 : -
sac HumanoidBulletEnv-v0 2048.187 : - 829.776 : - 149886 : - 172 : -
sac InvertedDoublePendulumBulletEnv-v0 9357.406 : - 0.504 : - 150000 : - 150 : -
sac InvertedPendulumSwingupBulletEnv-v0 891.508 : - 0.963 : - 150000 : - 150 : -
sac LunarLanderContinuous-v2 269.783 : - 57.077 : - 149852 : - 709 : -
sac Pendulum-v0 -159.669 : - 86.665 : - 150000 : - 750 : -
sac ReacherBulletEnv-v0 17.529 : - 9.860 : - 150000 : - 1000 : -
sac Walker2DBulletEnv-v0 2052.646 : - 13.631 : - 150000 : - 150 : -