Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)? #2

Open
nbcc opened this issue Mar 24, 2020 · 4 comments

Comments

@nbcc
Copy link

nbcc commented Mar 24, 2020

Pretraining 的收敛指标没有横向对比的可能;ELECTRA 核心优势是在下游 finetuning 任务上的表现,较 bert/roberta 收敛加快。中文上是否观察到这个现象呢?

@yyht
Copy link

yyht commented Mar 24, 2020

ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好)
image
下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)

@yyht
Copy link

yyht commented Mar 24, 2020

而且,electra pretrain的指标很重要,如果 disc 的 指标上不去,基本微调的效果也很差

@nbcc
Copy link
Author

nbcc commented Mar 24, 2020

ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好)
image
下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)

我表述不够清楚:不同 steps 下,Pretraining 模型的金标准是看该 checkpoint 在 finetuning 任务上的效果。ELECTRA 通过 100% label 学习,宣称Pretraining阶段同 step 下的 checkpoint,在下游 finetuning 上效果更好。因此,我的问题是,tiny 模型是否观察到这个?

@yyht
Copy link

yyht commented Mar 24, 2020

这个还没有对比过,我可以上传 robert-tiny、electra-tiny 的中间checkpoint 用于 验证,我个人 时间、资源 限制 没有 做过类似的实验

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants