展示的demo效果用了多少语料 #18

josh-zhu · 2023-08-28T03:58:19Z

如题，demo展示的效果已经不错了，请教下是使用了多少说话人的的语料库

adelacvg · 2023-08-28T04:06:12Z

aishell3+vctk+原神3.5，估计200小时左右，350个说话人吧。有泛化性，但集外数据还是容易不像。每个说话人不需要太多数据，1000+音色应该就能有不错的泛化性。

josh-zhu · 2023-08-28T04:30:23Z

了解，训练事件大概多长呢。我这边有200个校对过的中文说话人数据，在30分钟-1小时之间。感觉可以叠加在ahell3和vctk之上试一下呢

adelacvg · 2023-08-28T07:23:17Z

demo的结果是在两张3090上训练了一天，训练更长时间音质会更好。bs设置是32，显存大概每张20g左右。

yiwei0730 · 2023-08-28T08:39:01Z

想询问原神的资料要如何取得，或是您是否能够提供连结下载呢?

adelacvg · 2023-08-28T09:16:33Z

想询问原神的资料要如何取得，或是您是否能够提供连结下载呢?

https://huggingface.co/datasets/Erythrocyte/Genshin_Datasets

yiwei0730 · 2023-08-31T09:47:54Z

我使用一個250位語者的資料集，GPU一張，然後做訓練 bs設置32，不過我看預設的步數是100萬步，但總時長似乎需要666個小時，每2.5秒/it。想問一下這樣子的速度是合理的嗎? 還是是有問題的。您的兩張訓練一天大概是多少步數呢?
我顯存使用是38560MiB，一張GPU，bs 32。

adelacvg · 2023-08-31T10:46:34Z

我使用一個250位語者的資料集，GPU一張，然後做訓練 bs設置32，不過我看預設的步數是100萬步，但總時長似乎需要666個小時，每2.5秒/it。想問一下這樣子的速度是合理的嗎? 還是是有問題的。您的兩張訓練一天大概是多少步數呢? 我顯存使用是38560MiB，一張GPU，bs 32。

可能是正常的，我有试过单卡3090，8bs 可以跑到3 it/s，两张卡32 bs大概是1.3 it/s。虽然设置了100万步，但其实30万步左右就能有不错的效果。如果很慢可以尝试调整num workers。loss没有太大参考价值，主要靠听tensorboard采样的结果。

yiwei0730 · 2023-09-01T00:53:57Z

感謝您的回覆，但如果是雙卡使用的話accelerate config 的 gpus 應該就要設定是兩個了。300000/1.3 /86000 = 2.6天左右，
我改成16bs後，還是只有1.05 it/s 慢了好多。不知道是為什麼。
不過我有遇到，當訓練雙卡後，停止訓練後，再載入卻無法載入的情況(2 gpu時)。->有另開一個bug issue
This is my setting
compute_environment: LOCAL_MACHINE
debug: false
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: 0,2
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

yiwei0730 · 2023-09-01T01:28:22Z

額外多問一下v2跟原始model的差別在哪呢?
由於您tts的部分使用的是wip，故目前我是使用您tts專案下去做訓練嘗試。

adelacvg · 2023-09-01T10:48:44Z

額外多問一下v2跟原始model的差別在哪呢? 由於您tts的部分使用的是wip，故目前我是使用您tts專案下去做訓練嘗試。

在readme中有写，主要就是去掉了encodec换成了mel，用vocos作为声码器。backbone换为unet1d，还加了一些从sd那里抄过来的结构，可以参照图示理解。

yiwei0730 · 2023-09-01T11:37:46Z

oh! 昨天有更新ReadMe，抱歉沒有注意到。之前一直有follow 有發現多寫了在dataset的處理還有unet，所以還在思考是什麼方式。
unet的部分是 Semantic Segmentation of Anomalous Diffusion Using Deep Convolutional Networks 這個論文的架構嗎?

yiwei0730 · 2023-09-28T01:32:42Z

@adelacvg 測試了一個1500+音色 600+hr的訓練資料集，測試集外數據還是會有大部分不太相似的情況。
是否真如論文所測試，需要更大量的數據集才能有集外的泛化性效果。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

展示的demo效果用了多少语料 #18

展示的demo效果用了多少语料 #18

josh-zhu commented Aug 28, 2023

adelacvg commented Aug 28, 2023

josh-zhu commented Aug 28, 2023

adelacvg commented Aug 28, 2023

yiwei0730 commented Aug 28, 2023

adelacvg commented Aug 28, 2023

yiwei0730 commented Aug 31, 2023

adelacvg commented Aug 31, 2023

yiwei0730 commented Sep 1, 2023 •

edited

yiwei0730 commented Sep 1, 2023

adelacvg commented Sep 1, 2023

yiwei0730 commented Sep 1, 2023

yiwei0730 commented Sep 28, 2023

展示的demo效果用了多少语料 #18

展示的demo效果用了多少语料 #18

Comments

josh-zhu commented Aug 28, 2023

adelacvg commented Aug 28, 2023

josh-zhu commented Aug 28, 2023

adelacvg commented Aug 28, 2023

yiwei0730 commented Aug 28, 2023

adelacvg commented Aug 28, 2023

yiwei0730 commented Aug 31, 2023

adelacvg commented Aug 31, 2023

yiwei0730 commented Sep 1, 2023 • edited

yiwei0730 commented Sep 1, 2023

adelacvg commented Sep 1, 2023

yiwei0730 commented Sep 1, 2023

yiwei0730 commented Sep 28, 2023

yiwei0730 commented Sep 1, 2023 •

edited