Skip to content

PaddlePaddle 1.5.2

Compare
Choose a tag to compare
@XiaoguangHu01 XiaoguangHu01 released this 09 Sep 01:22
· 4 commits to release/1.5 since this release

Release Notes

训练框架

  • 易用性
    • 在Program编译时,如果程序报错,会将Python栈报错信息打印出。相关PR#19067
    • 在使用CPU进行训练时,如果没有设置CPU_NUM,会打印出warning信息。相关PR#18840
    • 在ParallelExecutor构建时,将Program中存在feed操作剪掉。相关PR#18997
    • 在PE中对Compile操作延迟执行。相关PR#19080
    • 修复Op不需要反向Op的注册问题,由于某些Op没有反向Op而导致组网过程中程序挂掉。相关PR#19251
    • 在Backward过程中,自动对不必要的Op进行剪枝。 相关PR#18700 #17942
  • 性能
    • 优化和开启recurrent op显存回收,使PaddingRNN benchmark速度提升4%,耗显存下降6.2%。
    • 对动态图的多卡性能进行优化,目前tTransformer Base模型的8卡加速比6.01,ResNet50模型的8卡加速比5.79。相关PR#19280 #18892
    • 数据读取操作中改为使用cuda pinned memory将数据拷贝到GPU设备上,fast_resnet的训练速度提升了约5%。相关PR#19112
  • 显存
    • 优化默认显存预分配策略。新策略会默认预分配GPU当前可用显存的92%,而不是总显存的92%,保证用户在已有任务占用显存时起PaddlePaddle任务不会失败。
    • 修复了affine_channel op在scale和bias有梯度时开启垃圾回收策略后出现变量误删除的Bug。相关PRPR18849
  • op 修复
    • 修复gather op中输入Index为空时程序未能及时报错的问题。相关PR#19168
    • 修复scatter op反向计算过程中输出梯度没有初始化的Bug。相关PR#18640
  • windows支持
    • 增加了cuda9, cuda10 的预测库支持,支持编译cuda9 与 cuda10的预测库
    • windows平台CUDA相关报错优化,优化了部分cuda和cublas相关API调用出错的提示信息
    • 预测库编译和文档优化,优化了windows平台下预测库编译的文档说明
  • 安装
    • 修复了文档中的部分错漏
    • 增加了conda的安装支持和相关文档

预测部署

  • 增加paddle-trt fp16支持
  • 修复Mask RCNN模型预测的Bug
    • 修复affine channel fuse 导致mask rcnn的diff。
    • 修复condition block op导致预测期间显存/内存持续增长问题。
    • 修复merge lod tensor op导致的bug:当有中间样例预测为空时,后续的样例都被预测为空。
    • 修复预测中打开memory optim开关由于lod_reset op导致的结果diff问题。
  • 修复TensorRT多线程clone预测会访问野指针的Bug。相关PR#19379
  • 修复tensor_array_to_tensor临时scope导致的显存/内存泄漏。相关PR#19380
  • 修复Anakin接口调用的一处尺寸错误。相关PR#19383
  • 支持seqpool_cvm_concat的融合。相关PR#19381
  • 升级预测Python API,支持直接使用numpy传递数据。

分布式训练

  • 修复distributed lookup table模式下save参数的Bug。
  • 修复communicator模式析构时core dump的Bug。相关PR#18606
  • 修复同步模式下,训练过程中出现rpc deadline的Bug。相关PR#18984
  • 修复compiled program模式下使用communicator。相关PR#18350
    • 修复了文档中关于多机增量训练的错误。相关PR#1077
  • 修复了Fleet API GPU训练的Bug。相关PR#18966 #19167

动态图

  • 修复了动态图下conv2d transpose op bias问题。

模型建设

  • 添加了roi_perspective_transform变换矩阵和mask的输出。
  • 修复了depthwise_conv kernel size为5x5时的Bug。
  • 修复了sqrt, square二次反向操作中的InferShape问题,使得生成模型中含有InstanceNorm的梯度惩罚可以正常使用。