请教一下，怎么感觉LLaMA2-7B模型单机A800880G 用8张卡预训练TP4-PP1-DP2时间和TP1-PP1-DP8时间不合理 #24

13416157913 · 2023-09-18T07:56:14Z

用的是相同的数据进行测试，为什么TP4-PP1-DP2（张量并行度4，数据并行度2）的average token/sec/GPU : 6247.2 比
TP1-PP1-DP8（张量并行度1，数据并行度8）的average token/sec/GPU : 8707.8 值小，按理说TP4-PP1-DP2（张量并行度4，数据并行度2）训练速度应该比TP1-PP1-DP8（张量并行度1，数据并行度8）慢，因为单位时间内处理的token数少，为什么反而在该例子中：
TP4-PP1-DP2（张量并行度4，数据并行度2）的elapsed time per iteration (ms): 5245.2 （时间短）？
TP1-PP1-DP8（张量并行度1，数据并行度8）的elapsed time per iteration (ms): 15088.2 （时间长）？

====================================================================================

li-yi-dong · 2023-09-19T01:33:04Z

global batch size

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请教一下，怎么感觉LLaMA2-7B模型单机A800880G 用8张卡预训练TP4-PP1-DP2时间和TP1-PP1-DP8时间不合理 #24

请教一下，怎么感觉LLaMA2-7B模型单机A800880G 用8张卡预训练TP4-PP1-DP2时间和TP1-PP1-DP8时间不合理 #24

13416157913 commented Sep 18, 2023

li-yi-dong commented Sep 19, 2023

请教一下，怎么感觉LLaMA2-7B模型单机A800*8*80G 用8张卡预训练TP4-PP1-DP2时间和TP1-PP1-DP8时间不合理 #24

请教一下，怎么感觉LLaMA2-7B模型单机A800*8*80G 用8张卡预训练TP4-PP1-DP2时间和TP1-PP1-DP8时间不合理 #24

Comments

13416157913 commented Sep 18, 2023

li-yi-dong commented Sep 19, 2023

请教一下，怎么感觉LLaMA2-7B模型单机A800880G 用8张卡预训练TP4-PP1-DP2时间和TP1-PP1-DP8时间不合理 #24

请教一下，怎么感觉LLaMA2-7B模型单机A800880G 用8张卡预训练TP4-PP1-DP2时间和TP1-PP1-DP8时间不合理 #24