How to generate outputs from the PPOTrainer of chatgpt? #2906

huliangbing · 2023-02-25T09:57:42Z

huliangbing
Feb 25, 2023

How to generate outputs from the PPOTrainer of chatgpt? Can we generate outputs from reward_model or initial_model?

Can you show me the code like this:

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer(prompt, return_tensors="pt")
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
outputs = ### model.generate(**inputs, num_beams=5, num_beam_groups=5, max_new_tokens=30)
tokenizer.decode(outputs[0], skip_special_tokens=True)

Thanks!

ht-zhou · 2023-03-02T09:49:52Z

ht-zhou
Mar 2, 2023

Thanks for your feedback. We have already supported actor-inference in our newly updated PR.

1 reply

huliangbing Mar 4, 2023
Author

Thanks very much!

taishiciR · 2023-03-06T03:36:33Z

taishiciR
Mar 6, 2023

how to infer a RM(reward_model) like rm_checkpoint.pt?

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How to generate outputs from the PPOTrainer of chatgpt? #2906

{{title}}

Replies: 2 comments 1 reply

{{title}}

{{title}}

{{title}}

Select a reply

How to generate outputs from the PPOTrainer of chatgpt? #2906

huliangbing Feb 25, 2023

Replies: 2 comments · 1 reply

ht-zhou Mar 2, 2023

huliangbing Mar 4, 2023 Author

taishiciR Mar 6, 2023

huliangbing
Feb 25, 2023

Replies: 2 comments 1 reply

ht-zhou
Mar 2, 2023

huliangbing Mar 4, 2023
Author

taishiciR
Mar 6, 2023