Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

展示的demo效果用了多少语料 #18

Open
josh-zhu opened this issue Aug 28, 2023 · 12 comments
Open

展示的demo效果用了多少语料 #18

josh-zhu opened this issue Aug 28, 2023 · 12 comments

Comments

@josh-zhu
Copy link

如题,demo展示的效果已经不错了,请教下是使用了多少说话人的的语料库

@adelacvg
Copy link
Owner

aishell3+vctk+原神3.5,估计200小时左右,350个说话人吧。有泛化性,但集外数据还是容易不像。每个说话人不需要太多数据,1000+音色应该就能有不错的泛化性。

@josh-zhu
Copy link
Author

了解,训练事件大概多长呢。我这边有200个校对过的中文说话人数据,在30分钟-1小时之间。感觉可以叠加在ahell3和vctk之上试一下呢

@adelacvg
Copy link
Owner

demo的结果是在两张3090上训练了一天,训练更长时间音质会更好。bs设置是32,显存大概每张20g左右。

@yiwei0730
Copy link

想询问原神的资料要如何取得,或是您是否能够提供连结下载呢?

@adelacvg
Copy link
Owner

想询问原神的资料要如何取得,或是您是否能够提供连结下载呢?

https://huggingface.co/datasets/Erythrocyte/Genshin_Datasets

@yiwei0730
Copy link

我使用一個250位語者的資料集,GPU一張,然後做訓練 bs設置32,不過我看預設的步數是100萬步,但總時長似乎需要666個小時,每2.5秒/it。 想問一下這樣子的速度是合理的嗎? 還是是有問題的。 您的兩張訓練一天大概是多少步數呢?
我顯存使用是38560MiB,一張GPU,bs 32。

@adelacvg
Copy link
Owner

我使用一個250位語者的資料集,GPU一張,然後做訓練 bs設置32,不過我看預設的步數是100萬步,但總時長似乎需要666個小時,每2.5秒/it。 想問一下這樣子的速度是合理的嗎? 還是是有問題的。 您的兩張訓練一天大概是多少步數呢? 我顯存使用是38560MiB,一張GPU,bs 32。

可能是正常的,我有试过单卡3090,8bs 可以跑到3 it/s,两张卡32 bs大概是1.3 it/s。虽然设置了100万步,但其实30万步左右就能有不错的效果。如果很慢可以尝试调整num workers。loss没有太大参考价值,主要靠听tensorboard采样的结果。

@yiwei0730
Copy link

yiwei0730 commented Sep 1, 2023

感謝您的回覆,但如果是雙卡使用的話accelerate config 的 gpus 應該就要設定是兩個了。300000/1.3 /86000 = 2.6天左右,
我改成16bs後,還是只有1.05 it/s 慢了好多。 不知道是為什麼。
不過我有遇到,當訓練雙卡後,停止訓練後,再載入卻無法載入的情況(2 gpu時)。->有另開一個bug issue
This is my setting
compute_environment: LOCAL_MACHINE
debug: false
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: 0,2
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

@yiwei0730
Copy link

額外多問一下v2跟原始model的差別在哪呢?
由於您tts的部分使用的是wip,故目前我是使用您tts專案下去做訓練嘗試。

@adelacvg
Copy link
Owner

adelacvg commented Sep 1, 2023

額外多問一下v2跟原始model的差別在哪呢? 由於您tts的部分使用的是wip,故目前我是使用您tts專案下去做訓練嘗試。

在readme中有写,主要就是去掉了encodec换成了mel,用vocos作为声码器。backbone换为unet1d,还加了一些从sd那里抄过来的结构,可以参照图示理解。

@yiwei0730
Copy link

oh! 昨天有更新ReadMe,抱歉沒有注意到。 之前一直有follow 有發現多寫了在dataset的處理還有unet,所以還在思考是什麼方式。
unet的部分是 Semantic Segmentation of Anomalous Diffusion Using Deep Convolutional Networks 這個論文的架構嗎?

@yiwei0730
Copy link

@adelacvg 測試了一個1500+音色 600+hr的訓練資料集,測試集外數據還是會有大部分不太相似的情況。
是否真如論文所測試,需要更大量的數據集才能有集外的泛化性效果。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants