Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于bert预训练模型本地应该下载的位置 #88

Open
Jockzhk opened this issue Mar 2, 2024 · 3 comments
Open

关于bert预训练模型本地应该下载的位置 #88

Jockzhk opened this issue Mar 2, 2024 · 3 comments

Comments

@Jockzhk
Copy link

Jockzhk commented Mar 2, 2024

您好 感谢清华大学团队对MMSA框架的开源工作!在此想请问一下如果我在不python不安装mmsa pypi的条件下 关于bert预训练模型下载之后所应该存放的路径 之前单独跑通过self_mm的代码 不过好像mmsa框架里的整体代码架构和self_mm不太相同 所以想请问应该下载那几个文件 并且存放路径在哪里呢

@Columbine21
Copy link
Collaborator

夹在预训练模型(Bert)的代码对应于

self.tokenizer = tokenizer_class.from_pretrained(pretrained)

如果服务器能连外网的话,直接运行代码(会自动下载相关文件);如果不能这里要改成存放自己手动下载的预训练模型文件夹的路径;https://huggingface.co/google-bert/bert-base-uncased/tree/main 下载 pytorch_model.bin 和 config.json 放进文件夹即可

@Jockzhk
Copy link
Author

Jockzhk commented Mar 3, 2024

感谢您的回答 请问是将(pretrained)中的pretrained改成自己的bert的bin和json所在文件夹的绝对路径吗 另外如果想要跑中文数据集的话又该如何处理呢 是将json文件改成中文版的吗

@Columbine21
Copy link
Collaborator

感谢您的回答 请问是将(pretrained)中的pretrained改成自己的bert的bin和json所在文件夹的绝对路径吗 另外如果想要跑中文数据集的话又该如何处理呢 是将json文件改成中文版的吗

嗯,是的,中文要用在中文数据集上预训练的模型,bin 和 json 都要进行更换

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants