[RFC] 020 - Vision model 方案优化 #872

arvinxx · 2023-12-29T11:26:54Z

arvinxx
Dec 29, 2023
Maintainer

GPT-4-vision 模型不支持 function_call，导致视觉模型和插件无法一同使用。相关issue：

同时也有用户提到为了使用视觉识别能力而切换模型，会有点麻烦

目前的想法是把 vision model 作为一个额外的能力提供出来。在会话层面不隐藏图片，用户可以直接上传图片并发送。

在处理消息的链路上，先分析一下消息中是否包含图片。如果包含，先走一轮vision model 完成识别，然后再触发一次正常的 ai 消息。

这样一来就能实现类似现在chatgpt 识别图片然后再调用插件进行会话的效果了。

重点考虑 apikey 没有vision model 的情况。需要提示用户调用vision model出错，并显示错误原因。同时应该继续正常触发一次ai消息。

有相当一部分用户对于视觉模型的配置有诉求

在现有模式可以将其作为助手的配置做进一步扩展。类似 tts 一样，我们可以将助手的视觉识别能力作为一个可配置项，后续可以替换为google模型或者 llava covglm 等开源模型。