音声認識関係の学習のために、書籍「Pythonで学ぶ音声認識」を購入しました。こちらの書籍は、理論的な説明に留まらず、実践のための「データセット」や「ソースプログラム」も付属(ネットで公開)しています。今後、これらの実践を行っていきたいと思います。
学習の進め方としては、書籍で学んだことは、すぐに実践していこうと思います。その中で、こちらの書籍の理論的な部分で、個人的に重要と思われる部分を、メモ代わりに記録しておきたいと思います。後々、自分が後で見直すときに参考にしたいと思います。
書籍に関しては、【こちら】を参考にしてください。
音声認識の主な手法(書籍より)
こちらのページでは、主に「音声認識」の「手法」を確認したいと思います。
書籍「Pythonで学ぶ音声認識」の中では、音声認識の手法として、大きく以下の方法が示されていました。概ね、開発された順になっていますので、下が新しい手法ということになります。
まだ、全てを読んだ訳ではありませんが、「モデル適応」の一つとして、「ファイン・チューニング」を実践したいと思います。
No. | 手法 | 説明 | |
1 | GMM-HMMによる 音声認識 | 混合正規分布(GMM)とEMアルゴリズム、 隠れマルコフモデル(HMM)による音声認識 | ハイブリット・システム |
2 | DNN-HMMによる 音声認識 | ディープ・ニューラル・ネットワーク(DNN)、 隠れマルコフモデル(HMM)による音声認識 | ハイブリット・システム |
3 | Conectionist Cemporal Classification(CNC) | フルNNモデルとして End-to-EndEモデル Recurrent Neural Network (RNN)の一種 | |
4 | Attention Encoder-Decoderモデル | フルNNモデルとして End-to-EndEモデル Recurrent Neural Network (RNN)の一種 | |
5 | モデル適応 | JSUTコーパスをCTCで事前学習したモデルを、 「自分の音声」でファイン・チューニングする | その他の音声認識モデル |