Audio Classification

Datasets

Speech Commands from torchaudio, with 35 class.

Model Architecture

Using AlexNet with Mel Spectrogram 1 channel.
Output is a softmax with 35 nodes (35 class).

How to use this respository?

Edit your configuration in conf/configs.yaml
Train model using python main.py -cp conf -cn configs

Additional

You guys should install PySoundFile on windows or sox on linux, for torchaudio I/O backend.

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
assets		assets
conf		conf
.gitignore		.gitignore
README.md		README.md
datamodule.py		datamodule.py
main.py		main.py
model.py		model.py
requirements.txt		requirements.txt
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

assets

assets

conf

conf

.gitignore

.gitignore

README.md

README.md

datamodule.py

datamodule.py

main.py

main.py

model.py

model.py

requirements.txt

requirements.txt

utils.py

utils.py

Repository files navigation

Audio Classification

Datasets

Model Architecture

How to use this respository?

Additional

About

Releases

Packages

Languages

tuanio/audio-classification

Folders and files

Latest commit

History

Repository files navigation

Audio Classification

Datasets

Model Architecture

How to use this respository?

Additional

About

Topics

Resources

Stars

Watchers

Forks

Languages