PPO中critic模型不是应当使用reward model模型吗？ #73

zhangjian94cn · 2023-07-05T05:34:10Z

代码中使用Value Head来实现PPO中的critic，所定义的detach_value_head函数并没有被使用，也就是说训练过程中，value head之前的主干网络的部分能力还会被用于估计value，这样合理吗？

Line 87 in 4978118

def detach_value_head(self):

是否可以直接将此行替换成一个reward model的forward函数？

Line 120 in 4978118

value = self.v_head(hidden_states).squeeze(-1) # (batch, seq_len)

也就是在GPT2HeadWithValueModel初始化时，同时加入reward model的模型接口，这样更合理？

Line 74 in 4978118

class GPT2HeadWithValueModel(GPT2PreTrainedModel):

Provide feedback