Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

RuntimeError: CUDA error #8

Open
Jzli03 opened this issue Apr 19, 2022 · 9 comments
Open

RuntimeError: CUDA error #8

Jzli03 opened this issue Apr 19, 2022 · 9 comments

Comments

@Jzli03
Copy link

Jzli03 commented Apr 19, 2022

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
代码中错误定位在trainer.training(epoch)和writer.add_scalar('train_loss', train_loss.avg, curr_iter)请问应该如何更改

@flww213
Copy link

flww213 commented Jun 13, 2022

我也遇见了相同的问题,请问您解决了吗

@flww213
Copy link

flww213 commented Jun 14, 2022

我解决了这个问题,换用CPU之后可以发现是越界,然后找到是vis2gray.py中将一些点设置为16导致越界了。改为0就可以。

@flww213
Copy link

flww213 commented Oct 10, 2022 via email

@Wzysaber
Copy link

mask[mask >= num_class] = ignore_label
mask[mask <= 0] = ignore_label

dataset里面加这个就可以了

@flww213
Copy link

flww213 commented Jan 28, 2023

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。

@flww213
Copy link

flww213 commented Jan 28, 2023

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。

太感谢了兄弟 能加个q详聊吗,比如训练时候这个jpg他是如何生成的

训练里面没有生成jpg呀,loss是用tensorboardX 保存的,这几行:

writer.add_scalar(tag='train_loss_per_epoch', scalar_value=train_loss.avg, global_step=epoch, walltime=None)

推理的时候就是把预测结果保存下来的:

writer.add_image(tag='pres&GTs', img_tensor=val_visual, global_step=None, walltime=None)

@flww213
Copy link

flww213 commented Jan 28, 2023

@drucelee723 你新开一个issue说清楚就好了吧 你描述的问题我都没怎么看懂

@MLS2021
Copy link

MLS2021 commented Mar 5, 2023

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。
请问一下,config.json这个文件是什么

@hellobo2802
Copy link

谁能给一份完整的训练代码和文件阿,这个缺各种文件,config.json 权重等等

xd你缺啥了,我记得可以自己训练的啊,没缺文件吧,需要自己从头开始训练的。我的放到服务器上了,你看你缺啥文件我发你。

me too. 这个代码bug不断,好多地方续不上,兄弟share一下吧。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants