Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据对齐与不对齐的影响 #87

Open
zzyh3434 opened this issue Mar 2, 2024 · 4 comments
Open

数据对齐与不对齐的影响 #87

zzyh3434 opened this issue Mar 2, 2024 · 4 comments

Comments

@zzyh3434
Copy link

zzyh3434 commented Mar 2, 2024

您好,请问数据对齐与不对齐对模型的影响是什么呢?因为看到您给出的result中不同模型用到的数据有对齐和不对齐,不知道这样不同的数据格式对模型对比是否有影响呢?

@Columbine21
Copy link
Collaborator

数据对齐是指在ASR获取文本信息之后,获得每个文本token对应的时间范围,将每个时间段中音频、视频模态视为一个整体计算特征的平均值,以获得与文本token长度一致,时间对应的特征序列。在提供的MMSA框架中,提供了几种通过模型、启发式“对齐”的方法,这些方法的作用是将音视频模态序列长度与文本模态统一,进而支持通过concat的早期融合方法。

对齐与非对齐方法对性能可能的影响在于:

  1. (主要)音视频的序列长度,对齐后的特征长度较短,(或许)更有利于特征表示学些,及高效训练。
  2. 提供的模态特征粒度;(对应于每个文本 token) 或 (对应于固定时间间隔,例如20ms)。这种影响,我个人感觉于当前文本模态占主导地位有关联。

目前普遍的结果是:对于小模型(非端到端)而言,对齐数据、使用模型、启发式对齐后的数据输入模型训练能得到更好的模型性能。当然对于现在的趋势大模型(使用预训练模态特征抽取工具的端到端模型)而言,还是使用原始数据比较直接,也不会造成累计误差。

@zzyh3434
Copy link
Author

zzyh3434 commented Mar 4, 2024

非常感谢您的回答!

@phrgdut
Copy link

phrgdut commented Mar 18, 2024

提问的很好,谢谢楼主

@gravity5212
Copy link

对于config配置中:'seq_lens': [50, 500, 375], 'feature_dims': [768, 74, 35],如果对齐体现在config中就是seq_lens保持一致吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants