ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)？ #2

nbcc · 2020-03-24T03:11:44Z

Pretraining 的收敛指标没有横向对比的可能；ELECTRA 核心优势是在下游 finetuning 任务上的表现，较 bert/roberta 收敛加快。中文上是否观察到这个现象呢？

yyht · 2020-03-24T03:32:21Z

ELECTRA的核心优势在pretraing的时候 disc能够利用所有token（比mlm只用15%的数据利用率更高），卖点主要在预训练（更少的迭代次数达到相当的结果）（参加table-6: electra 在不同的模型大小下，迭代次数少于通常的 roberta和bert 以及table2: train flop相当的情况下，效果更好； train flop为roberta的四分之一，效果基本持平或者更好）

下游微调收敛快慢无所谓（lr大一些 epoch少一点，lr小，epoch大一些，反正拿dev 做验证就行）

yyht · 2020-03-24T03:33:12Z

而且，electra pretrain的指标很重要，如果 disc 的指标上不去，基本微调的效果也很差

nbcc · 2020-03-24T08:09:20Z

ELECTRA的核心优势在pretraing的时候 disc能够利用所有token（比mlm只用15%的数据利用率更高），卖点主要在预训练（更少的迭代次数达到相当的结果）（参加table-6: electra 在不同的模型大小下，迭代次数少于通常的 roberta和bert 以及table2: train flop相当的情况下，效果更好； train flop为roberta的四分之一，效果基本持平或者更好）

下游微调收敛快慢无所谓（lr大一些 epoch少一点，lr小，epoch大一些，反正拿dev 做验证就行）

我表述不够清楚：不同 steps 下，Pretraining 模型的金标准是看该 checkpoint 在 finetuning 任务上的效果。ELECTRA 通过 100% label 学习，宣称Pretraining阶段同 step 下的 checkpoint，在下游 finetuning 上效果更好。因此，我的问题是，tiny 模型是否观察到这个？

yyht · 2020-03-24T08:46:55Z

这个还没有对比过，我可以上传 robert-tiny、electra-tiny 的中间checkpoint 用于验证，我个人时间、资源限制没有做过类似的实验

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)？ #2

ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)？ #2

nbcc commented Mar 24, 2020 •

edited

yyht commented Mar 24, 2020

yyht commented Mar 24, 2020

nbcc commented Mar 24, 2020

yyht commented Mar 24, 2020

ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)？ #2

ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)？ #2

Comments

nbcc commented Mar 24, 2020 • edited

yyht commented Mar 24, 2020

yyht commented Mar 24, 2020

nbcc commented Mar 24, 2020

yyht commented Mar 24, 2020

nbcc commented Mar 24, 2020 •

edited