关于pytorch版本的seq2seq模型的几个问题 #142

renatz · 2022-08-31T09:29:48Z

1、为什么encoder输入是ans文本，decoder输入是ask文本，这样顺序颠倒会不会有啥问题
2、Lang类的实例属性index2word本来就有 {0: "start", 1: "end"}，再调用addWord()，index2word变为{0: 'start', 1: 'end', 2: 'start', 3: '是', 4: '王若', 5: '猫', 6: '的', 7: 'end', 8: '那', 9: '什么', 10: '我'}，start和end对应两个key会不会影响什么？chatbot回答带start和end有可能是这个原因导致的吗？
3、遍历decoder的每个句子的每个词时，算loss时为啥+=再/bsz？遍历完1batch，为什么返回的loss/target_length？
感觉遍历每个词时，直接+=，等遍历完这个句子+=并/target_length，作为每个句子的平均loss。
遍历完1batch，返回所有句子的平均loss/bsz是否更加合理？

ZhiyangLiang · 2022-08-31T13:59:32Z

1、这个我是通过对代码进行微调解决的；
2、start和end的处理方式是按照paper做的，而如果不想回答中有start和end，可以采取字符串截取的方式；
3、这个的话作者应该是按照单次最小的loss来判断训练是否终止，虽然我也觉得用平均loss可能更合理。

renatz · 2022-10-31T10:44:22Z

1、这个我是通过对代码进行微调解决的； 2、start和end的处理方式是按照paper做的，而如果不想回答中有start和end，可以采取字符串截取的方式； 3、这个的话作者应该是按照单次最小的loss来判断训练是否终止，虽然我也觉得用平均loss可能更合理。

感谢回复，调换顺序并优化训练代码后，均loss降到1.2xx对话都顺畅很多

renatz mentioned this issue Mar 19, 2023

Fix the order of input and remove the redundancies in prediction #154

Closed

renatz mentioned this issue May 21, 2023

Release bighead version #162

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于pytorch版本的seq2seq模型的几个问题 #142

关于pytorch版本的seq2seq模型的几个问题 #142

renatz commented Aug 31, 2022 •

edited

ZhiyangLiang commented Aug 31, 2022

renatz commented Oct 31, 2022

关于pytorch版本的seq2seq模型的几个问题 #142

关于pytorch版本的seq2seq模型的几个问题 #142

Comments

renatz commented Aug 31, 2022 • edited

ZhiyangLiang commented Aug 31, 2022

renatz commented Oct 31, 2022

renatz commented Aug 31, 2022 •

edited