New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
训练过程中,内存一直增长,到后期会把整个服务器的内存都占完 #673
Comments
大佬们没人关注下么 |
初步分析,是数据增强中的 AugMix 和 RandomPatch 这两个方法的原因,我把这两个方法去掉后,就正常了,话说京东负责这个项目的大佬都被优化了么?没人回复了 |
感谢反馈问题,负责这个项目的人(就是我)已经去干别的工作了,这个项目目前就是为爱发电的状态,欢迎你提 PR 来修复这个问题,如果我有时间会复现一下这个问题(最近比较忙)。。 |
哈哈哈,还以为这个项目的大佬们,都再京东上一波的优化中被毕业了,好的 |
我也遇到了内存持续增涨的问题,2000w数据,worker设为4, 单卡batchsize 512,基本上训练一个epoch就是内存爆掉。但是我没有用到 AugMix 和 RandomPatch这两个增强方式,甚至去掉了所有的数据增强还是会爆,目前还不清楚原因 |
你的没有用这两个增强是再配置文件中吧,你试试再代码中直接把这两个增强注释掉。路径python/fast-reid-master/fastreid/data/transforms/build.py
|
不是的,base配置文件和defaul.py里都是没有设置的,也看了log生成的config.yaml,确定是没有用这两个增强 |
我使用了AugMix,没有发现内存增长的问题; 猜测是这个地方引起的问题:
把 max_prefetch 的值改成1;或者不使用DataLoaderX,使用pytorch原生的DataLoader试试 |
max_prefetch设为1就相当于没有数据的预加载了吧,那速度估计还要降低了
|
1还是有数据预读取的,只是预读一个Batch,设为0才是没有数据预读取; |
我还有修改的一点,就是pytorch官方的dataloader本身也是有内存泄漏的,参考这个issue : pytorch/pytorch#13246 这个帖子里有个大佬的解决方法是:
我就好像修改了这两个地方,就从内存猛涨到不涨了,希望对你们有帮助,上述代码添加在对应的train_net.py中 |
我是用DDP训练,也遇到了很多问题。 |
This issue is stale because it has been open for 30 days with no activity. |
This issue was closed because it has been inactive for 14 days since being marked as stale. |
data_loader num_worker设为多个时,内存增长的尤其快,num_worker=0时也会持续增长,排除pytorch dataloader问题
The text was updated successfully, but these errors were encountered: