zero to nlp

特点

🎯目标：基于pytorch、transformers做中文领域的nlp开箱即用的训练框架，提供全套的训练、微调模型（包括大模型、文本转向量、文本生成、多模态等模型）的解决方案；
💽数据：
- 从开源社区，整理了海量的训练数据，帮助用户可以快速上手；
- 同时也开放训练数据模版，可以快速处理垂直领域数据；
- 结合多线程、内存映射等更高效的数据处理方式，即使需要处理百GB规模的数据，也是轻而易举；
💻流程：每一个项目有完整的模型训练步骤，如：数据清洗、数据处理、模型构建、模型训练、模型部署、模型图解；
🔥模型：当前已经支持gpt2、clip、gpt-neox、dolly、llama、chatglm-6b、VisionEncoderDecoderModel等多模态大模型；
🚀多卡串联：当前，多数的大模型的尺寸已经远远大于单个消费级显卡的显存，需要将多个显卡串联，才能训练大模型、才能部署大模型。因此对部分模型结构进行修改，实现了训练时、推理时的多卡串联功能。

中文名称	文件夹名称	数据	数据清洗	大模型	模型部署	图解
中文文本分类	chinese_classifier	✅	✅	✅	☑️	✅
中文`gpt2`	chinese_gpt2	✅	✅	✅	✅	☑️
中文`clip`	chinese_clip	✅	✅	✅	☑️	✅
图像生成中文文本	VisionEncoderDecoderModel	✅	✅	✅	☑️	✅
vit核心源码介绍	vit model	☑️	☑️	☑️	☑️	✅
`Thu-ChatGlm-6b`	simple_thu_chatglm6b	✅	✅	✅	✅	☑️
中文`dolly_v2_3b`	dolly_v2_3b	✅	✅	✅	☑️	☑️
中文`llama`	chinese_llama	✅	✅	✅	☑️	☑️
中文`bloom`	chinese_bloom	✅	✅	✅	☑️	☑️

数据流程图解

我一直觉得，数据流程通过图解的形式表达出来，其实是最清楚的，因此我都会尽可能的把每一个任务的都图解出来。

一直在整理开源数据，如果有需要，可以关注公众号统计学人，回复nlp数据即可。目前还在整理数据中

Name		Name	Last commit message	Last commit date
Latest commit History 120 Commits
Chatglm6b_ModelParallel		Chatglm6b_ModelParallel
Chatglm6b_ModelParallel_ptuning		Chatglm6b_ModelParallel_ptuning
chinese_bloom		chinese_bloom
chinese_classifier		chinese_classifier
chinese_clip		chinese_clip
chinese_dolly_v2_3b		chinese_dolly_v2_3b
chinese_gpt2		chinese_gpt2
chinese_llama		chinese_llama
images		images
simple_thu_chatglm6b		simple_thu_chatglm6b
train_thuglm(作废)		train_thuglm(作废)
vit-gpt2-image-chinese-captioning		vit-gpt2-image-chinese-captioning
vit		vit
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt