有什么模型可以只输入视频和音频，不需要输入caption的吗 #89

tianguang2525 · 2024-03-14T02:45:47Z

如题

Columbine21 · 2024-03-19T03:59:15Z

目前多模态的模型本质上都可以处理两模态输入问题，把文本模态用 “零向量” 填充（实际上的操作是预训练模型中用[UNK]替换）与视频音频特征序列一起输入模型即可。

但这样做一般训练得到的模型性能很差（尤其是在MOSI MOSEI两个早期的数据集上，通常和数据偏置情况一致，等价于直接回归值为训练样本均值的情况。）所以，为了能训练两模态的模型，其实可以考虑在 SIMS v2 这类模态相对均衡的数据集上训练模型、进行性能测试。

如果同学是想做端到端的音视频大模型，情况或许会有所不同，但目前的测试效果来看（MLLM 目前对内容等客观事实的捕捉好于对情感等主观问题的理解，这在很多其他团队的论文中也可以验证）还有一段差距。不过根据我对MOSI和MOSEI数据质量的了解，以及之前的（失败）经验，在这两个数据集上训练端到端模型基本不行。

如果说最新的一些工作可以直接回答你的问题，可以参考一些序列结构的多模态模型，可以处理任意模态数量输入的情况，如：
MultiModN — Multimodal, Multi-Task, Interpretable Modular Networks

Columbine21 · 2024-03-19T04:02:46Z

简单地说，现在多模态的模型如果说要做情感分析问题，基本都要带上文本模态，因为效果好。

其实不仅仅是情感任务，所有多模态的MLLM都可以认为有主导模态的存在，大多数论文认为是文本，有少部分发现是其他模态。（我之前问过一些同学，他们的任务也是一样，语言果然是最直接，语义最丰富的模态）。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有什么模型可以只输入视频和音频，不需要输入caption的吗 #89

有什么模型可以只输入视频和音频，不需要输入caption的吗 #89

tianguang2525 commented Mar 14, 2024

Columbine21 commented Mar 19, 2024

Columbine21 commented Mar 19, 2024

有什么模型可以只输入视频和音频，不需要输入caption的吗 #89

有什么模型可以只输入视频和音频，不需要输入caption的吗 #89

Comments

tianguang2525 commented Mar 14, 2024

Columbine21 commented Mar 19, 2024

Columbine21 commented Mar 19, 2024