音声認識


[2024/07/30]作成 ⇒[2025/03/10]修正

 こちらでは、長年温めてきた「音声認識」に係わる記事を掲載したいと思います。

 以前の記事「機械学習の進捗状況と、「実用システム」の構築(案)、今後の M1 の活用」(実用的なシステムの構築)の中で紹介しましたが、私の人工知能の学習の動機になった事柄です。ここにきて、やっと、思い描いていたことが、実現できそうなところまできて感無量です。

はじめに

 音声認識は、私が人工知能の勉強を始めるきっかけ、動機になったことです。現時点では、それがどれほど困難なことか分かりますが、つい最近まで分かりませんでした。

 一通り、音声認識の手法については、下記の書籍「Pythonで学ぶ音声認識」で学習できましたが、自分がやろうとしていることは、未だにできていません。

 他の書籍も、先日(2025/03/13)購入を決めましたが、前途多難な状況です。こちらのテーマについては、ライフワークとして、ゆっくりと取り組んでいきたいと思います。

 そんな訳で、ゆっくりと「音声認識」の知識をつけながら、別なテーマに軸足を移したいと思います。具体的には、「強化学習」です。「生成AI」も魅力的ですが、このテーマもなかなかに魅力的です。

 生成AIは、物理的に高機能コンピュータ(高性能GPU搭載PC)が必要であり、そちらの購入が可能になったら始めたいと思います。

 

今後の研究スケジュール

研究の構想

ステージ  内     容ハードOS開始時期進捗
書籍による机上学習

  Pythonで学ぶ音声認識
   高島 遼一 著
ー----
 
 
 
ー---
 
 
 
2024/08
 
 
 
終了
 
 
 
書籍の例題の実践

  Pythonで学ぶ音声認識
   高島 遼一 著
 
 
GK41

UM580


Xaver NX
 
Linux

Linux

Linux
 
2024/08

2024/08

2025/
再学習
終了
 
終了
 
開始
 
オリジナルデータによる実践

  Pythonで学ぶ音声認識
   高島 遼一 著
UM580

Xaver NX
 
Linux

Linux
 
2025/

2025/
 
予定

予定
 
予備実験
・簡易の音声認識ソフトを用いて
 聾者の発音の認識率を事前に調査しておく
UM580Windows2025/予定
聾者の音声による実践

・第1ステップ
・第2ステップ
・第3ステップ
・第4ステップ
Xaver NX 
New PC 
 
 
 
 
Linux
Windows
 
 
 
 
2025/ 
2026/
 
 
 
 
予定 
未定
 
 
 
 

 

ステージ4について

 とりあえず、ステージ2まで完了したので、あらためて、ステージ4各ステップについて確認したいと思います。以前に立てた計画をコピペして修正しました。[2025/03/10]

ろう者による発音の音声認識システム
 「ろう者」といっても、聞こえの状況はさまざまで、その発語に関しても状況はさまざまです。従って一概には言えませんが、一般的に、ろう者の発音を初めて聞いたとき、意味を捉えられないことが多いです。しかし、回を重ねてくると分かるようになります。まさしく、私たちの脳は学習していると思われます。これを人工知能で、行いたいと考えています。今回考える「音声認識システム」は、以下のような流れで進めたいと思います。

第1ステップ
① ある特定の個人1名を対象とする。(第4ステップでは、複数人数を対象とする)
② 特定の単語の認識を行う。(単語数は、10個程度から始めて、徐々に増やしていく)
③ 一つの単語に対して、複数の発音サンプルデータを準備して学習に用いる。
④ 最初は、リアルタイムに音声認識するのではなく、音声ファイルの認識を行う。
⑤ ニューラルネットワークの設計は、できるだけシンプル(2層程度)なものから始める。
  認識率の状況を見ながら、必要に応じて徐々に複雑なものにしていく。

第2ステップ
② 2音節「私・行く」、「明日・帰る」などの認識を行う。
①、③~⑤ は同じ

第3ステップ
② 3音節以上の文章の認識を行う。
①、③~⑤ は同じ

第4ステップ
① 複数の個人を対象とする
②~⑤ は同じ

 上記が、現時点でのロードマップです。しかし、実践の状況によっては、アプローチの方向性が変更になる可能性も高いです。最終的には、より精度の高い認識ができることが目標になります。

 

新しいPCの購入について

[2024/08/28]

 今回、こちらの音声認識の研究で使用するPCに関しては、「Xavier NX(AI-Computer)」で十分に対応できると考えています。しかし、こちらの研究がひと段落したら「生成AI」の研究、具体的には、「画像生成」をやりたいと考えています。

 この「画像生成」は、事前に調べた時点で、かなり高機能なGPU搭載のPCが必要なことが分かっています。そして、その研究を本格的に始める際は、新しいPCの購入が必要だと考えています。

 確かに「画像生成」と「音声認識」の研究には、基本的につながりはありませんが、どうせ購入する必要があるならば、早めに購入することも「ありかな?」と思っています。

 購入するPCに関しては、「画像生成」で使用するソフトウェア(Stable diffusion)を考慮し、また、そのPCが別な目的に流用できるかを考慮すると、「AI-Computer」ではなく、「Game-PC」が適していると考えています。

パソコンのタイプの検討

[2025/03/10]

 昨年の8月頃に検討していた「Game-PC」の購入ですが、ここにきて、どのようなタイプのコンピュータが適しているか迷っています。具体的な候補を挙げておきます。

※ 昨年、具体的な候補を決定しましたが、購入寸前で使う時間が無いとして見送りました。

 候補1 ショップの「デスクトップ」の Game-PC
 候補2 ショップまたはメーカーの「ノート」の Game-PC
 候補3 「Mini-PC」&「GPU」 ドッキングステーションによる接続

※ 候補1と候補3の場合は、別途、モニタが必要

 とりあえず、ネットでの意見をまとめると、設置場所があるのなら、迷わず「デスクトップ」がお薦めだそうです。理由はいたって明快で、単純に性能が高いからだそうです。コスパで考えても、何と言っても「デスクトップ」が断トツに良いそうです。

 それと、何だかんだ言って、「グラボの性能=ゲームPCの性能」、みたいです(笑)。また、純粋にAIパフォーマンスを考えたときは、VRAMの容量が非常に大きいようです。

タイトルとURLをコピーしました