deepspeed+megatron+llama，请问作者有试过吗 #19

Chandler-Bing · 2023-09-14T12:24:42Z

hello，我最近也在研究megatron，看到了Megatron-deepspeed，项目里并没有实现llama模型，但是提供了pretrain llama架构的sh脚本，请问下作者您的这个项目和那个有什么区别呢？
另外请教下为什么要把模型转换成megatron的格式呢？我直接用的huggingface的bin模型，好像运行成功了
感谢代码😊😊😊

wangjiamang · 2023-09-14T12:57:34Z

https://github.com/alibaba/Megatron-LLaMA/blob/main/README_zh.md#2-megatron-llama%E4%B8%ADoverlappeddistributedoptimizer%E7%AE%80%E4%BB%8B 这里介绍了我们和deepspeed的通信方式的区别，目前的方式通信效率更高

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

deepspeed+megatron+llama，请问作者有试过吗 #19

deepspeed+megatron+llama，请问作者有试过吗 #19

Chandler-Bing commented Sep 14, 2023

wangjiamang commented Sep 14, 2023 •

edited

deepspeed+megatron+llama，请问作者有试过吗 #19

deepspeed+megatron+llama，请问作者有试过吗 #19

Comments

Chandler-Bing commented Sep 14, 2023

wangjiamang commented Sep 14, 2023 • edited

wangjiamang commented Sep 14, 2023 •

edited