Geshen/async mcts #101

gshennvm · 2024-02-07T06:54:04Z

DRAFT tracking only

Signed-off-by: Gerald Shen <geshen@nvidia.com> fix Signed-off-by: Gerald Shen <geshen@nvidia.com>

Signed-off-by: Gerald Shen <geshen@nvidia.com>

…rid_model_train

for more information, see https://pre-commit.ci

Signed-off-by: Gerald Shen <geshen@nvidia.com>

for more information, see https://pre-commit.ci

Signed-off-by: Gerald Shen <geshen@nvidia.com>

…rid_model_train

for more information, see https://pre-commit.ci

…rid_model_train

Signed-off-by: Gerald Shen <geshen@nvidia.com>

…rid_model_train

Signed-off-by: Gerald Shen <geshen@nvidia.com>

for more information, see https://pre-commit.ci

Signed-off-by: Yi Dong <yidong@nvidia.com>

Signed-off-by: Gerald Shen <geshen@nvidia.com>

…/async_mcts

Signed-off-by: Gerald Shen <geshen@nvidia.com>

for more information, see https://pre-commit.ci

Signed-off-by: Gerald Shen <geshen@nvidia.com>

…to geshen/async_mcts

yidong72 · 2024-02-09T22:18:35Z

nemo_aligner/utils/deep_search/mcts/mcts.py

-                    return_value_memory.append((list(spg.value_memory), spg.data_id, backup_root_states[i]))
-                    del parallel_searches[i]
-                    del backup_root_states[i]
+            if is_terminal:


indentation error?

Signed-off-by: Gerald Shen <geshen@nvidia.com>

yidong72 · 2024-02-09T22:51:22Z

examples/nlp/gpt/mcts_search.py

+        cfg.model,
+        trainer,
+        strict=True,
+        load_base_model_only=True,


will it cause a problem that the second time we load the improved hybrid network, it won't load the value head weights?

the second time we load the value head, PTL will overwrite this checkpoint that we loaded, so it should be pretty safe

okay. so you are loading from ckpt not nemo files

yeah, so when we have no checkpoint it loads from the .nemo file, when there is a checkpoint it loads this .nemo file but PTL will overwrite it

examples/nlp/gpt/conf/gpt_hybrid_train.yaml

Signed-off-by: Gerald Shen <geshen@nvidia.com>

gshennvm and others added 30 commits January 28, 2024 21:34

initial train

2d972f1

Signed-off-by: Gerald Shen <geshen@nvidia.com> fix Signed-off-by: Gerald Shen <geshen@nvidia.com>

add

f3c43f8

Signed-off-by: Gerald Shen <geshen@nvidia.com>

remove debug

03b41e3

Signed-off-by: Gerald Shen <geshen@nvidia.com>

default

8886d9f

Signed-off-by: Gerald Shen <geshen@nvidia.com>

remove grad on stem of value network

59e7a5d

Signed-off-by: Gerald Shen <geshen@nvidia.com>

format

999f668

Signed-off-by: Gerald Shen <geshen@nvidia.com>

Merge remote-tracking branch 'origin/yi/hybrid_model' into geshen/hyb…

1e6cff1

…rid_model_train

[pre-commit.ci] auto fixes from pre-commit.com hooks

f811772

for more information, see https://pre-commit.ci

merge gpt hybrid train properly

c6dd58f

Signed-off-by: Gerald Shen <geshen@nvidia.com>

add

f95ae4d

Signed-off-by: Gerald Shen <geshen@nvidia.com>

can train

d31b56c

Signed-off-by: Gerald Shen <geshen@nvidia.com>

revert a change

6f87242

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

58f97d7

Signed-off-by: Gerald Shen <geshen@nvidia.com>

default

79ec456

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

362003f

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

dd17b56

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

4af0cb9

Signed-off-by: Gerald Shen <geshen@nvidia.com>

final

4337b11

Signed-off-by: Gerald Shen <geshen@nvidia.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

368d0ab

for more information, see https://pre-commit.ci

remove bp

c13f848

Signed-off-by: Gerald Shen <geshen@nvidia.com>

Merge remote-tracking branch 'origin/yi/hybrid_model' into geshen/hyb…

96da76d

…rid_model_train

Merge remote-tracking branch 'origin/yi/hybrid_model' into geshen/hyb…

8df37c6

…rid_model_train

[pre-commit.ci] auto fixes from pre-commit.com hooks

804c67f

for more information, see https://pre-commit.ci

Merge remote-tracking branch 'origin/yi/hybrid_model' into geshen/hyb…

b2efbea

…rid_model_train

fix typo

2832407

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

521581c

Signed-off-by: Gerald Shen <geshen@nvidia.com>

Merge remote-tracking branch 'origin/yi/hybrid_model' into geshen/hyb…

56ba26d

…rid_model_train

no num workers

281767a

Signed-off-by: Gerald Shen <geshen@nvidia.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

a42c1f9

for more information, see https://pre-commit.ci

remove pickle

695bce5

Signed-off-by: Yi Dong <yidong@nvidia.com>

gshennvm and others added 15 commits February 7, 2024 00:11

remove pb

f1bd28d

Signed-off-by: Gerald Shen <geshen@nvidia.com>

add terminate barrier

a85853c

Signed-off-by: Gerald Shen <geshen@nvidia.com>

add grouping and sigmoid

4dcb985

Signed-off-by: Gerald Shen <geshen@nvidia.com>

train partial

75f1338

Signed-off-by: Gerald Shen <geshen@nvidia.com>

partial done 2.0

8b7eb70

Signed-off-by: Gerald Shen <geshen@nvidia.com>

change max length default

de2a7be

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

c47f386

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

5777900

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

18cce29

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix bug in metric

ccd21bb

Signed-off-by: Gerald Shen <geshen@nvidia.com>

Merge remote-tracking branch 'origin/yi/search_benchmark' into geshen…

664f41f

…/async_mcts

fix merge problems

c9e3f82

Signed-off-by: Gerald Shen <geshen@nvidia.com>

[pre-commit.ci] auto fixes from pre-commit.com hooks

0393b49

for more information, see https://pre-commit.ci

train policy first

10552dc

Signed-off-by: Gerald Shen <geshen@nvidia.com>

Merge branch 'geshen/async_mcts' of github.com:NVIDIA/NeMo-Aligner in…

d1fefa9

…to geshen/async_mcts

yidong72 reviewed Feb 9, 2024

View reviewed changes

gshennvm added 2 commits February 9, 2024 14:29

fix indent

ef111fa

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix indent again

695da5e

Signed-off-by: Gerald Shen <geshen@nvidia.com>

yidong72 reviewed Feb 9, 2024

View reviewed changes

examples/nlp/gpt/conf/gpt_hybrid_train.yaml Outdated Show resolved Hide resolved

gshennvm added 4 commits February 9, 2024 15:14

decrease 800 to 200

6db5aa1

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix indent

3a9be99

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix checkpointing bug

45db982

Signed-off-by: Gerald Shen <geshen@nvidia.com>

add cache dir arg

4ac5c9b

Signed-off-by: Gerald Shen <geshen@nvidia.com>

gshennvm force-pushed the geshen/async_mcts branch from 011e5f3 to 4ac5c9b Compare February 10, 2024 01:17

gshennvm added 5 commits February 9, 2024 17:35

add train acc

740879b

Signed-off-by: Gerald Shen <geshen@nvidia.com>

inference

b06a9ed

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix

60b2f03

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix bug

7f945fd

Signed-off-by: Gerald Shen <geshen@nvidia.com>

fix bug

a4c8982

Signed-off-by: Gerald Shen <geshen@nvidia.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Geshen/async mcts #101

Geshen/async mcts #101

gshennvm commented Feb 7, 2024

yidong72 Feb 9, 2024

yidong72 Feb 9, 2024

gshennvm Feb 9, 2024

yidong72 Feb 9, 2024

gshennvm Feb 9, 2024

Geshen/async mcts #101

Are you sure you want to change the base?

Geshen/async mcts #101

Conversation

gshennvm commented Feb 7, 2024

yidong72 Feb 9, 2024

Choose a reason for hiding this comment

yidong72 Feb 9, 2024

Choose a reason for hiding this comment

gshennvm Feb 9, 2024

Choose a reason for hiding this comment

yidong72 Feb 9, 2024

Choose a reason for hiding this comment

gshennvm Feb 9, 2024

Choose a reason for hiding this comment