Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【需求收集】MegEngine 报错提示信息优化 #473

Open
HuaHua404 opened this issue Aug 2, 2022 · 1 comment
Open

【需求收集】MegEngine 报错提示信息优化 #473

HuaHua404 opened this issue Aug 2, 2022 · 1 comment

Comments

@HuaHua404
Copy link
Contributor

针对目前有部分同学提出的 “MegEngine各类报错信息提示不够明确”的问题,MegEngine 技术团队正在逐步优化中。

在此也希望大家能在此反馈更多具体的待优化报错提示信息,帮助我们做定向优化。

为了更好的复现报提示并进行修复,建议回复时参考以下模板

【版本、环境信息】

  • MegEngine 版本:(请提供当前问题发生所使用的 MegEngine 版本)
  • CPU 型号:(如为 CPU,请提供 CPU 型号)
  • GPU 型号:(如为 GPU,请提供 GPU 型号)
  • 系统环境:(请提供系统环境,linux / windows / Android、手机型号等,包括是 32 位/64 位)
  • python 版本: (请提供您使用的 python 版本号)

【运行代码】

【错误日志】

@ghost
Copy link

ghost commented Aug 24, 2022

【版本、环境信息】

  • MegEngine 版本:1.10.0
  • GPU 型号:8x2080ti
  • 系统环境:linux,64 位
  • python 版本: python 3.8.10

【运行代码】

  • [说明 ] 参考https://github.com/MegEngine/Models/tree/master/official/vision/detection
    跑的是RetinaNet在COCO2017数据集上的训练,数据集同步到的目录:
    /path/to/
    |->coco
    | |annotations
    | |train2017
    | |val2017

  • 运行代码:
    cd Models
    python3 -m official.vision.detection.tools.train -f official/vision/detection/configs/retinanet_res50_coco_3x_800size.py -n 8 -d /data/RetinaNet/

【错误日志】
这个报错不是每次都会出现,但出现频次很高,就近两天遇到的情况来看超过60%
24 16:21:55 Prepare dataset
Traceback (most recent call last):
File "/usr/lib/python3.8/runpy.py", line 194, in _run_module_as_main
return _run_code(code, main_globals, None,
File "/usr/lib/python3.8/runpy.py", line 87, in _run_code
exec(code, run_globals)
File "/home/zhangyuewen/Models/official/vision/detection/tools/train.py", line 256, in
main()
File "/home/zhangyuewen/Models/official/vision/detection/tools/train.py", line 69, in main
trainer(args)
File "/home/zhangyuewen/.local/lib/python3.8/site-packages/megengine/distributed/launcher.py", line 148, in call
assert (
AssertionError: subprocess 7 exit with code -9

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant