streaming pcm frame to server using pykandi. #322

donaldos · 2024-05-16T23:42:46Z

I want to perform frame-by-frame speech recognition using pykaldi.
I want to send voice data to the server with websocket every 250ms, and pykaldi will proceed with speech recognition after receiving pcm data from the server.
Please find the problem in the following code.
Thank you for your review.

using 0.2.2 version

convert pcm data to np array data
processing to recognize speech
'def process_audio_chunk(audio_data, rate=16000):

Convert audio to Kaldi format

waveform = kaldi.matrix.SubVector(audio_data)

Compute MFCC features

mfcc_opts = kaldi.feat.mfcc.MfccOptions()
mfcc_opts.frame_opts.samp_freq = 16000.0
mfcc = kaldi.feat.mfcc.Mfcc(mfcc_opts)
feats = kaldi.matrix.Matrix()
mfcc.compute_features(waveform, rate, 1.0, feats)

Perform decoding

result = recognizer.decode(feats)'
problem.
for mfcc.compute_feature(), please detailed example.
in Documentation 0.1.1, argments is 4 but Error is happend in 0.2.2

bmilde · 2024-05-17T10:00:37Z

I recommend checking out kaldi-model-server (https://github.com/uhh-lt/kaldi-model-server). It's using pykaldi to do online decoding and it has good latency as well. You can see it in action here: https://ltdata1.informatik.uni-hamburg.de/meetingbot/meetingbot_de.mp4 (German) and https://ltdata1.informatik.uni-hamburg.de/meetingbot/meetingbot_en.mp4 (English).

bmilde closed this as completed May 20, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

streaming pcm frame to server using pykandi. #322

streaming pcm frame to server using pykandi. #322

donaldos commented May 16, 2024

Convert audio to Kaldi format

Compute MFCC features

Perform decoding

bmilde commented May 17, 2024

streaming pcm frame to server using pykandi. #322

streaming pcm frame to server using pykandi. #322

Comments

donaldos commented May 16, 2024

Convert audio to Kaldi format

Compute MFCC features

Perform decoding

bmilde commented May 17, 2024