CVTE公司开源了一个训练好的模型,可以直接使用该模型进行识别。

下载模型

下载地址:http://kaldi-asr.org/models/m2

将下载的文件解压到 kaldi/egs 下。

运行模型

进入到 kaldi/src/online2bin 下,执行以下命令:

./online2-wav-nnet3-latgen-faster --do-endpointing=false --online=false --feature-type=fbank --fbank-config=../../egs/cvte/s5/conf/fbank.conf --max-active=7000 --beam=15.0 --lattice-beam=6.0 --acoustic-scale=1.0 --word-symbol-table=../../egs/cvte/s5/exp/chain/tdnn/graph/words.txt ../../egs/cvte/s5/exp/chain/tdnn/final.mdl ../../egs/cvte/s5/exp/chain/tdnn/graph/HCLG.fst 'ark:echo utter1 utter1|' 'scp:echo utter1 ../../egs/cvte/s5/data/wav/00030/2017_03_07_16.57.22_1175.wav|' ark:/dev/null
# 将../../egs/cvte/s5/data/wav/00030/2017_03_07_16.57.22_1175.wav替换成你的wav文件路径

效果预览

该模型对内存要求较高,在我本地16G的电脑上因为内存不足没能运行成功,最后在一台大内存的服务器上运行成功。并且预测时间也较长,一条九秒的语音,花费将近两分钟,有可能是因为没有GPU的缘故。

资源占用 预测时的资源占用

运行结果 识别结果对比(黑字为正确文本,白字为识别结果)

可以看出,识别效果也不是很理想,如果想进一步提高性能,可以参考此文章:cvte在线解码器源码修改(干货)

References