以下是我们准备进行或者正在进行的工作,我们会在主干分支上更新相关设计和开发文档,以及代码。 我们欢迎社区成员一同参与讨论和开发。
- 框架使用 C++ 改写。
- device 抽象。
- CPU 硬件支持和加速。
- MoE 类模型,包括 Mixtral 和 DeepSeek。
- 更多的多模态模型。
- SmoothQuant支持(W8A8, W4A8)
- 在 Continuous Batching 上的细致性能调优。
- Lora/和激活上更细致的显存管理。
- MGMN的性能分析与优化。
- 长sequence length的进一步优化。