[RFC] 020 - Vision model 方案优化 #872
Closed
arvinxx
started this conversation in
RFC | 特性开发
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
背景
GPT-4-vision 模型不支持 function_call,导致视觉模型和插件无法一同使用。 相关issue:
同时也有用户提到为了使用视觉识别能力而切换模型,会有点麻烦
解决思路
目前的想法是把 vision model 作为一个额外的能力提供出来。在会话层面不隐藏图片,用户可以直接上传图片并发送。
在处理消息的链路上,先分析一下消息中是否包含图片。如果包含,先走一轮vision model 完成识别,然后再触发一次正常的 ai 消息。
这样一来就能实现类似现在chatgpt 识别图片然后再调用插件进行会话的效果了。
异常场景
重点考虑 apikey 没有vision model 的情况。需要提示用户调用vision model出错,并显示错误原因。同时应该继续正常触发一次ai消息。
扩展性
有相当一部分用户对于视觉模型的配置有诉求
在现有模式可以将其作为助手的配置做进一步扩展。类似 tts 一样,我们可以将助手的视觉识别能力作为一个可配置项,后续可以替换为google模型或者 llava covglm 等开源模型。
Beta Was this translation helpful? Give feedback.
All reactions