为什么我增加了训练数据集数量后，无法训练？ #79

wangwangteam · 2024-05-11T01:58:42Z

我自己的数据集中，训练集1807张，测试集1800张,放在了sence01目录下。当我使用默认的训练参数训练时，能够正常训练。
当我在同级目录下增加了sence02，训练集1201张，测试集334张，依然采用默认的训练参数训练时，就报错了。报错信息如下：

训练命令如下：

服务器环境：
torch-gpu: 2.0.1
gpu: 3090

还有一个问题，当我把batch size 从8修改为256、128、64、32、16等任意一个batch size，都不能正常训练，具体表现为当bs为256、128、64、32时，直接不能训练，当bs为16时，训练2轮后，就报上图中的错误。
请大佬帮忙答疑解惑，万分感谢！！

wangwangteam · 2024-05-11T02:00:32Z

sence01和sence02一块训练时，报错如下：

mpmmpmmmp · 2024-05-11T06:41:28Z

你框出来的就是报错原因

wangwangteam · 2024-05-11T06:46:35Z

你框出来的就是报错原因

24G的3090， bs=16，爆显存是正常的吗？

那我用bs=8, 训练集3808张图，报这个错是什么情况呢？

mpmmpmmmp · 2024-05-11T06:48:41Z

似乎没截全，不清楚

wangwangteam · 2024-05-11T07:50:30Z

这个是用了3808张训练集训练时的报错

mpmmpmmmp · 2024-05-11T07:52:51Z

这个是用了3808张训练集训练时的报错

应该是数据加载的问题

hosegragon · 2024-05-30T07:04:00Z

显存不够，我也是一样的问题

Provide feedback