実践:Pythonで学ぶ音声認識

 音声認識関係の学習のために、書籍「Pythonで学ぶ音声認識」を購入しました。こちらの書籍は、理論的な説明に留まらず、実践のための「データセット」や「ソースプログラム」も付属(ネットで公開)しています。今後、これらの実践を行っていきたいと思います。

 学習の進め方としては、書籍で学んだことは、すぐに実践していこうと思います。その中で、こちらの書籍の理論的な部分で、個人的に重要と思われる部分を、メモ代わりに記録しておきたいと思います。後々、自分が後で見直すときに参考にしたいと思います。

 書籍に関しては、【こちら】を参考にしてください。


音声認識の主な手法(書籍より)

 こちらのページでは、主に「音声認識」の「手法」を確認したいと思います。

 書籍「Pythonで学ぶ音声認識」の中では、音声認識の手法として、大きく以下の方法が示されていました。概ね、開発された順になっていますので、下が新しい手法ということになります。

 まだ、全てを読んだ訳ではありませんが、「モデル適応」の一つとして、「ファイン・チューニング」を実践したいと思います。

No.手法説明
1GMM-HMMによる
音声認識
混合正規分布(GMM)とEMアルゴリズム、
隠れマルコフモデル(HMM)による音声認識
ハイブリット・システム
2DNN-HMMによる
音声認識
ディープ・ニューラル・ネットワーク(DNN)、
隠れマルコフモデル(HMM)による音声認識
ハイブリット・システム
3Conectionist Cemporal
Classification(CNC
フルNNモデルとして
End-to-EndEモデル
Recurrent Neural Network
(RNN)の一種
4Attention
Encoder-Decoderモデル
フルNNモデルとして
End-to-EndEモデル
Recurrent Neural Network
(RNN)の一種
5モデル適応JSUTコーパスをCTCで事前学習したモデルを、
「自分の音声」でファイン・チューニングする
その他の音声認識モデル

具体的な実践の手順

タイトルとURLをコピーしました