Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

为什么我增加了训练数据集数量后,无法训练? #79

Open
wangwangteam opened this issue May 11, 2024 · 7 comments
Open

Comments

@wangwangteam
Copy link

我自己的数据集中,训练集1807张,测试集1800张,放在了sence01目录下。当我使用默认的训练参数训练时,能够正常训练。
当我在同级目录下增加了sence02,训练集1201张,测试集334张,依然采用默认的训练参数训练时,就报错了。报错信息如下:
0f9f209c5cd7c8d772988ce7f200fc7
训练命令如下:
image

服务器环境:
torch-gpu: 2.0.1
gpu: 3090

还有一个问题,当我把batch size 从8修改为256、128、64、32、16等任意一个batch size, 都不能正常训练,具体表现为当bs为256、128、64、32时,直接不能训练,当bs为16时,训练2轮后,就报上图中的错误。
请大佬帮忙答疑解惑,万分感谢!!

@wangwangteam
Copy link
Author

sence01和sence02一块训练时,报错如下:
image

@mpmmpmmmp
Copy link

你框出来的就是报错原因

@wangwangteam
Copy link
Author

你框出来的就是报错原因

24G的3090, bs=16,爆显存是正常的吗?

那我用bs=8, 训练集3808张图, 报这个错是什么情况呢?
image

@mpmmpmmmp
Copy link

似乎没截全,不清楚

@wangwangteam
Copy link
Author

image
这个是用了3808张训练集 训练时的报错

@mpmmpmmmp
Copy link

image 这个是用了3808张训练集 训练时的报错

应该是数据加载的问题

@hosegragon
Copy link

显存不够,我也是一样的问题

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants