Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有什么模型可以只输入视频和音频,不需要输入caption的吗 #89

Open
tianguang2525 opened this issue Mar 14, 2024 · 2 comments

Comments

@tianguang2525
Copy link

如题

@Columbine21
Copy link
Collaborator

目前多模态的模型本质上都可以处理两模态输入问题,把文本模态用 “零向量” 填充(实际上的操作是预训练模型中用[UNK]替换)与视频音频特征序列一起输入模型即可。

但这样做一般训练得到的模型性能很差(尤其是在MOSI MOSEI两个早期的数据集上,通常和数据偏置情况一致,等价于直接回归值为训练样本均值的情况。)所以,为了能训练两模态的模型,其实可以考虑在 SIMS v2 这类模态相对均衡的数据集上训练模型、进行性能测试。

如果同学是想做 端到端的音视频大模型,情况或许会有所不同,但目前的测试效果来看(MLLM 目前对内容等客观事实的捕捉好于对情感等主观问题的理解,这在很多其他团队的论文中也可以验证)还有一段差距。不过根据我对MOSI和MOSEI数据质量的了解,以及之前的(失败)经验,在这两个数据集上训练端到端模型基本不行。

如果说最新的一些工作可以直接回答你的问题,可以参考一些序列结构的多模态模型,可以处理任意模态数量输入的情况,如:
MultiModN — Multimodal, Multi-Task, Interpretable Modular Networks

@Columbine21
Copy link
Collaborator

简单地说,现在多模态的模型如果说要做情感分析问题,基本都要带上文本模态,因为效果好。

其实不仅仅是情感任务,所有多模态的MLLM都可以认为有主导模态的存在,大多数论文认为是文本,有少部分发现是其他模态。(我之前问过一些同学,他们的任务也是一样,语言果然是最直接,语义最丰富的模态)。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants