Tokenizer takes 3 minutes to load #3

AngledLuffa · 2021-11-08T00:46:02Z

It takes three minutes to load the tokenizer using HF (python 3.6.8, transformers 4.12.2, torch 1.9.0)

transformers.AutoTokenizer.from_pretrained("idb-ita/gilberto-uncased-from-camembert", do_lower_case=True)

Is there some way to speed this up? Other tokenizers take a fraction of this time.

I wonder if part of the problem is the "model_max_len" which is somewhat excessive:

PreTrainedTokenizerFast(name_or_path='idb-ita/gilberto-uncased-from-camembert', vocab_size=32005, model_max_len=1000000000000000019884624838656, is_fast=True, padding_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': AddedToken("<mask>", rstrip=False, lstrip=True, single_word=False, normalized=True), 'additional_special_tokens': ['<s>NOTUSED', '</s>NOTUSED']})

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Tokenizer takes 3 minutes to load #3

Tokenizer takes 3 minutes to load #3

AngledLuffa commented Nov 8, 2021 •

edited

Tokenizer takes 3 minutes to load #3

Tokenizer takes 3 minutes to load #3

Comments

AngledLuffa commented Nov 8, 2021 • edited

AngledLuffa commented Nov 8, 2021 •

edited