Skip to content

yangtao121/AquaRL

Repository files navigation

介绍

欢迎使用AquaRL强化学习框架,该框架的设计旨在让强化学习用起来更简单,更快,更方便的并行运算。AquaRL基于TensorFlow2实现,并且将网络的结构与整个框架剥离开来,只要的模型是按照keras风格写的,你都可以很方便使用该框架,而不需要进行额外的修改。这里的并行实现是通过MPI+共享内存的形式实现。目前实现PPO和GAIL,未来将不断添加新的算法。

目前PPO对lstm的第一版本的已经上传,使用R2D2的方法让PPO训练lstm,目前还存在训练慢,收敛慢的问题,欢迎大家在issue里面提出修改意见。

Notice

全新的框架即将推出,基于ray的分布式训练,同时支持一些监督学习方法,便于对表征的提取,也同步实现多线程调参,另外将支持R2D2中提到的LSTM训练方法。

结构

结构

目前就放个大概的结构,后面将完整版的结构放进去。

未来开发计划

  • 仿真环境难度自调整功能
  • 支持可变step的轨迹
  • 完善policy定义
  • 添加DDPG算法
  • 添加DQN算法
  • 添加对循环网络的支持