[2024/07/30]作成 ⇒[2025/03/10]修正
こちらでは、長年温めてきた「音声認識」に係わる記事を掲載したいと思います。
以前の記事「機械学習の進捗状況と、「実用システム」の構築(案)、今後の M1 の活用」(実用的なシステムの構築)の中で紹介しましたが、私の人工知能の学習の動機になった事柄です。ここにきて、やっと、思い描いていたことが、実現できそうなところまできて感無量です。
はじめに
音声認識は、私が人工知能の勉強を始めるきっかけ、動機になったことです。現時点では、それがどれほど困難なことか分かりますが、つい最近まで分かりませんでした。
一通り、音声認識の手法については、下記の書籍「Pythonで学ぶ音声認識」で学習できましたが、自分がやろうとしていることは、未だにできていません。
他の書籍も、先日(2025/03/13)購入を決めましたが、前途多難な状況です。こちらのテーマについては、ライフワークとして、ゆっくりと取り組んでいきたいと思います。
そんな訳で、ゆっくりと「音声認識」の知識をつけながら、別なテーマに軸足を移したいと思います。具体的には、「強化学習」です。「生成AI」も魅力的ですが、このテーマもなかなかに魅力的です。
生成AIは、物理的に高機能コンピュータ(高性能GPU搭載PC)が必要であり、そちらの購入が可能になったら始めたいと思います。
今後の研究スケジュール
研究の構想
ステージ | 内 容 | ハード | OS | 開始時期 | 進捗 |
1 | 書籍による机上学習 Pythonで学ぶ音声認識 高島 遼一 著 | ー---- | ー--- | 2024/08 | 終了 |
2 | 書籍の例題の実践 Pythonで学ぶ音声認識 高島 遼一 著 | GK41 UM580 Xaver NX | Linux Linux Linux | 2024/08 2024/08 2025/ 再学習 | 終了 終了 開始 |
3 | オリジナルデータによる実践 Pythonで学ぶ音声認識 高島 遼一 著 | UM580 Xaver NX | Linux Linux | 2025/ 2025/ | 予定 予定 |
予備実験 ・簡易の音声認識ソフトを用いて 聾者の発音の認識率を事前に調査しておく | UM580 | Windows | 2025/ | 予定 | |
4 | 聾者の音声による実践 ・第1ステップ ・第2ステップ ・第3ステップ ・第4ステップ | Xaver NX New PC | Linux Windows | 2025/ 2026/ | 予定 未定 |
ステージ4について
とりあえず、ステージ2まで完了したので、あらためて、ステージ4の各ステップについて確認したいと思います。以前に立てた計画をコピペして修正しました。[2025/03/10]
ろう者による発音の音声認識システム |
「ろう者」といっても、聞こえの状況はさまざまで、その発語に関しても状況はさまざまです。従って一概には言えませんが、一般的に、ろう者の発音を初めて聞いたとき、意味を捉えられないことが多いです。しかし、回を重ねてくると分かるようになります。まさしく、私たちの脳は学習していると思われます。これを人工知能で、行いたいと考えています。今回考える「音声認識システム」は、以下のような流れで進めたいと思います。 第1ステップ ① ある特定の個人1名を対象とする。(第4ステップでは、複数人数を対象とする) ② 特定の単語の認識を行う。(単語数は、10個程度から始めて、徐々に増やしていく) ③ 一つの単語に対して、複数の発音サンプルデータを準備して学習に用いる。 ④ 最初は、リアルタイムに音声認識するのではなく、音声ファイルの認識を行う。 ⑤ ニューラルネットワークの設計は、できるだけシンプル(2層程度)なものから始める。 認識率の状況を見ながら、必要に応じて徐々に複雑なものにしていく。 第2ステップ ② 2音節「私・行く」、「明日・帰る」などの認識を行う。 ①、③~⑤ は同じ 第3ステップ ② 3音節以上の文章の認識を行う。 ①、③~⑤ は同じ 第4ステップ ① 複数の個人を対象とする ②~⑤ は同じ |
上記が、現時点でのロードマップです。しかし、実践の状況によっては、アプローチの方向性が変更になる可能性も高いです。最終的には、より精度の高い認識ができることが目標になります。
新しいPCの購入について
[2024/08/28]
今回、こちらの音声認識の研究で使用するPCに関しては、「Xavier NX(AI-Computer)」で十分に対応できると考えています。しかし、こちらの研究がひと段落したら「生成AI」の研究、具体的には、「画像生成」をやりたいと考えています。
この「画像生成」は、事前に調べた時点で、かなり高機能なGPU搭載のPCが必要なことが分かっています。そして、その研究を本格的に始める際は、新しいPCの購入が必要だと考えています。
確かに「画像生成」と「音声認識」の研究には、基本的につながりはありませんが、どうせ購入する必要があるならば、早めに購入することも「ありかな?」と思っています。
購入するPCに関しては、「画像生成」で使用するソフトウェア(Stable diffusion)を考慮し、また、そのPCが別な目的に流用できるかを考慮すると、「AI-Computer」ではなく、「Game-PC」が適していると考えています。
パソコンのタイプの検討
[2025/03/10]
昨年の8月頃に検討していた「Game-PC」の購入ですが、ここにきて、どのようなタイプのコンピュータが適しているか迷っています。具体的な候補を挙げておきます。
※ 昨年、具体的な候補を決定しましたが、購入寸前で使う時間が無いとして見送りました。
候補1 ショップの「デスクトップ」の Game-PC
候補2 ショップまたはメーカーの「ノート」の Game-PC
候補3 「Mini-PC」&「GPU」 ドッキングステーションによる接続
※ 候補1と候補3の場合は、別途、モニタが必要
とりあえず、ネットでの意見をまとめると、設置場所があるのなら、迷わず「デスクトップ」がお薦めだそうです。理由はいたって明快で、単純に性能が高いからだそうです。コスパで考えても、何と言っても「デスクトップ」が断トツに良いそうです。
それと、何だかんだ言って、「グラボの性能=ゲームPCの性能」、みたいです(笑)。また、純粋にAIパフォーマンスを考えたときは、VRAMの容量が非常に大きいようです。