Skip to content

NTT123/Vietnamese-Text-To-Speech-Dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Vietnamese Text-To-Speech dataset (VietTTS-v1.1)

🔔🔔🔔 visit https://github.com/NTT123/vietTTS for a vietnamese TTS library (included pretrained models). 🔔🔔🔔

The text is from a collection of novels and short stories from the author "Vu Trong Phung." The text is in public domain. The audio is generated by Google Text-to-Speech offline engine on Android. The audio is NOT for commercial use.

Dataset size: 5.4G. Total audio duration: 35.9 hours.

Text-audio samples

  • Sample 1:

    • Audio: file1
    • Text: "Ai" đây tức là một kẻ ăn mày vậy. Anh ta chưa kịp quay đi thì đã thấy mấy con chó vàng chạy xồng xộc ra cứ nhảy xổ vào chân anh.
  • Sample 2:

    • Audio: file2
    • Text: Ừ, thế mày đã nuôi được bố mẹ mày bữa nào chưa, hay xưa nay vẫn báo hại cơm cha áo mẹ mãi? Mấy hôm thấy ông đơ mặt không thèm nói, mày lại làm già à?

Download

Get the dataset from here: link. Or, run the following commands:

wget https://huggingface.co/datasets/ntt123/viet-tts-dataset/resolve/main/viet-tts.tar.gz -O viet-tts.tar.gz 
mkdir -p dataset
tar -C dataset -xzf viet-tts.tar.gz

dataset directory structure:

dataset
├── collections.txt
├── meta_data.tsv
└── wav
    ├── 000000.wav
    ├── 000001.wav
    ├── 000002.wav
    ├── 000003.wav
    ...

Statistics

  • Number of clips: 22884 clips.
  • Shortest audio clip: 0.46 seconds.
  • Median clip duration: 5.46 seconds.
  • Mean clip duration: 5.65 seconds.
  • Longest audio clip: 15.4 seconds.

Vũ Trọng Phụng's collections

  • Bệnh Lao Chữa Bằng Mồm Hay Là ... Thầy Lang Bất Hủ, 1934?
  • Cạm Bẫy Người, 1933.
  • Cơm Thầy Cơm Cô, 1936.
  • Đời Là Một Cuộc Chiến Đấu,1939.
  • Dứt Tình, 1934.
  • Giông Tố, 1936.
  • Gương Tống Tiền, N/A.
  • Hồ Sê Líu, Hồ Líu Sê Sàng, 1936.
  • Kỹ Nghệ Lấy Tây, 1934.
  • Làm Đĩ, 1936.
  • Lấy Nhau Vì Tình, 1937.
  • Lấy Vợ Xấu, 1937.
  • Lòng Tự Ái, 1937.
  • Máu Mê, 1937.
  • Một Cái Chết, 1931.
  • Một Con Chó Hay Chim Chuột, 1937.
  • Một Đồng Bạc, 1939.
  • Người Có Quyền, 1937.
  • Sao Mày Không Vỡ Nắp Ơi!, 1934.
  • Số Đỏ, 1936.
  • Sư Cụ Triết Lý, 1935.
  • Trúng Số Độc Đắc, 1938.
  • Tự Do, 1937.
  • Từ Lý Thuyết Đến Thực Hành, N/A.
  • Vỡ Đê, 1936.

About

A synthesized dataset for Vietnamese TTS task

Resources

Stars

Watchers

Forks

Packages

No packages published