Skip to content

Latest commit

 

History

History
24 lines (18 loc) · 652 Bytes

Roadmap.md

File metadata and controls

24 lines (18 loc) · 652 Bytes

Roadmap

以下是我们准备进行或者正在进行的工作,我们会在主干分支上更新相关设计和开发文档,以及代码。 我们欢迎社区成员一同参与讨论和开发。

代码重构

  • 框架使用 C++ 改写。

硬件支持

  • device 抽象。
  • CPU 硬件支持和加速。

模型类型

  • MoE 类模型,包括 Mixtral 和 DeepSeek。
  • 更多的多模态模型。

量化

  • SmoothQuant支持(W8A8, W4A8)

性能优化

  • 在 Continuous Batching 上的细致性能调优。
  • Lora/和激活上更细致的显存管理。
  • MGMN的性能分析与优化。
  • 长sequence length的进一步优化。