请问下训练512x512分辨率的图像也使用16x16的codebook size吗 #54

YilanWang · 2024-05-11T01:51:12Z

我请问在训练512x512的时候,是再下采样一次,使用16x16的latent size, 还是把v_patch_nums=(1, 2, 3, 4, 5, 6, 8, 10, 13, 16)扩展为v_patch_nums=(1, 2, 3, 4, 5, 6, 8, 10, 13, 16....32), 还是直接使用v_patch_nums=(1, 2, 3, 4, 5, 6, 8, 10, 13, 16),最后卷积到latent size=32就好?

keyu-tian · 2024-05-11T16:37:54Z

@YilanWang 是 (1,2,...32)，可参考 https://github.com/FoundationVision/VAR/blob/main/utils/arg_util.py#L246

YilanWang · 2024-05-13T02:37:37Z

多谢作者~看到了,我发现复现的时候channel如果比较少(也就是网络小一点),multiscale vq很难收敛啊,不知道是不是复现有什么bug,希望作者大大早日开源VAE的复现

YilanWang closed this as completed May 13, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问下训练512x512分辨率的图像也使用16x16的codebook size吗 #54

请问下训练512x512分辨率的图像也使用16x16的codebook size吗 #54

YilanWang commented May 11, 2024

keyu-tian commented May 11, 2024

YilanWang commented May 13, 2024

请问下训练512x512分辨率的图像也使用16x16的codebook size吗 #54

请问下训练512x512分辨率的图像也使用16x16的codebook size吗 #54

Comments

YilanWang commented May 11, 2024

keyu-tian commented May 11, 2024

YilanWang commented May 13, 2024