Skip to content

enze5088/Chatterbox

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

92 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Chatterbox

Read this in English.

Code License Model License GitHub last commit GitHub Repo stars

本项目持续收集整理并分享关于大语言模型的相关内容,主要包括以下三类:

  1. 持续收集整理并分享关于大语言模型的相关中文数据集:如预训练数据集、指令微调数据集、
  2. 提供中文对话模型 、中文基础模型及预训练框架构建。陆续开放不同规模的中文基础模型权重
  3. 分享基于中文大语言模型的相关应用及代码等。

包含内容

  1. 中文NLP相关的可用的数据集,分享开源与发布新爬取的数据集。详细介绍见此
  2. 中文基础模型分享
    1. 基于BloomZ 1B2 的中文语言模型。裁剪词表和WordsEmbedding后参数量为0.9B左右,使用开源指令数据进行微调训练。目前主要使用Belle,alpaca_gpt4_data_zh,firefly 微调。
    2. 从头预训练中文LLaMA模型。
      1. Chatterbox-LLaMA-zh-base 使用33G语料从头预训练初始化的LLaMA-base中文模型,重新制作了中文词表与分词器。详细介绍见该文档 PS:已更新100G中文语料从头预训练版本
  3. 语言模型的相关应用
    1. 基于大模型的Web聊天Demo与微信机器人实现。

数据集

整理并当前可用的中文NLP相关的大模型训练的数据集,目前已整理30+。并陆续发布新爬取的中文数据集。

开源数据集

本项目爬取并整理的部分数据。

  • 人民日报数据集 :194603月-201012月 其中2004-2010年数据集缺失标题并有格式混乱的现象。
  • 新浪新闻数据集:新浪网首页新闻文档,2002年-2023年全部首页链接的新闻文档。

模型

Chatterbox-LLaMA-zh-base

使用33G中文语料重头开始预训练的Llama-base模型,参数量约为0.8B左右。旨在提供可用的中小型基础模型。针对中文语料重新构建了embedding层和tokenizer,未经过指令微调。无需遵守原LLaMA权重协议。

使用数据

License

The use of this repo is subject to the Apache License

About

Chinese large language model

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published