3. はじめに

3.1. 音声認識の基礎

音声認識とは, コンピュータ (あるいは他のタイプの機械) が話し言葉を 認識する処理です. 基本的には, コンピュータに向って話し, その上で, その言葉がコンピュータに正しく認識されるという意味です.

以下の定義は音声認識の技術を理解するために必要な基礎です.

発話

発話は, 1つの意味を表す単語やいくつかの言葉をコンピュータに向かって 発声する (話す) ことです. 発話は単語であったり, 言葉であったり, 文であったり, あるいは複数の文であったりします.

話者への依存

話者に依存するシステムは特定の話者を対象として設計されます. そのシステムは一般に, その特定の話者の発声に対しては正確ですが, 他の話者では精度がずっと悪くなります. それらは話者が一定の声と 速度で話すことを仮定しています. 話者に依存しないシステムは様々な話者に 向けて設計されます. 順応性のあるシステムは普通, 話者に依存しない システムとしてスタートし, 学習技術を利用して認識精度を高めることで 話者に適応していきます.

語彙

語彙 (あるいは辞書) とは, SR システムに認識されるための言葉や発話のリストです. 一般に, コンピュータにとっては少ない語彙のほうが認識しやすく, 語彙が多くなるほど認識が困難になります. 普通の辞書とは異なり, それぞれの項目は単語ではありません. それらは文や文章ほど 長くなることもあります. 少ない語彙は1つか2つの認識された文 (例えば "Wake up") しかないかもしれませんが, とても多い語彙では 10 万語 以上となります.

精度

認識装置の能力はその精度を測定することによって, あるいはまた, 話された言葉をどれくらい認識するかによって調べることができます. これは発話を正確に特定するだけでなく, 発話が語彙に 含まれているかどうかを特定することも含んでいます. 良い ASR システムは 98% 以上の精度があります. あるシステムの精度の許容範囲はその用途に強く 依存します.

学習

話者に順応する能力を持つ音声認識もあります. システムが この能力をもっているときは, 学習させることができます. ASR システムは話者に標準的な言葉や一般的な言葉を繰り返させ, 比較のアルゴリズムを特定の話者に調和することで学習されます. 一般に認識装置を学習させることで, その精度は向上します.

学習は, 話し方やある種の単語の発音がうまくできない話者にも 利用されます. 話者が首尾一貫して発話を繰り返す限り, 学習機能の ある ASR システムは適応することが可能でしょう.

3.2. 音声認識のタイプ

音声認識のシステムは, どのようなタイプの発話を認識する能力を持っているか によって, 幾つかのクラスに分類することができます. このようなクラスは話者がいつ発話を始め, いつ終えたのかを測定する能力が ASR の難しさの 1つであるという事実に基づいています. 多くのパッケージが 使用中のモードによって, 複数のクラスに適合します.

孤立した言葉

孤立した言葉の認識には, それぞれの発話ごとにサンプルウィンドウ (サンプルの開始から終了の期間)の前後に 音のない時間 (オーディオ信号の無い状態)が必要となります. 認識装置が単語を受け取るというわけでなく 一度には発話は一つという意味です. このシステムでは普通なのですが, ``音声入力状態 / 認識状態'' という 2 つの 状態があるため,話者はとぎれとぎれに話さなければなりません (声がとぎれたときに認識処理をしています). 孤立した発話はこのクラスではより良い名前かもしれません.

連続した言葉

連続した言葉 (あるいはより正確に '連続した発話') のシステムは 孤立した言葉のシステムに似ていますが, 間に最短の休止をはさみながら '続けて発声される' 個別の発話を認識します.

連続した音声

連続した認識が次のステップです. 連続した音声を認識できる装置は 最も作りにくい ものです, なぜなら発話の境界を特定するために特殊な方法を使用しなければ ならないからです. 連続した音声認識装置はユーザにほとんど自然に話すことを 許します, 一方でコンピュータが内容を特定します. 基本的に, それは コンピュータの書き取りです.

自然な音声

実際に自然な音声が何であるかの定義はさまざまあるようです. 基本的な 段階では, それは自然な音の発生であって繰り返されるものではない という考えであるかもしれません. 自然な音声の機能を備えた ASR システムは "ums" と "ahs" など, 混合された言葉などの さまざまな自然の音声の特徴や, 微かな口ごもりさえ, 扱うことが可能でしょう.

音声照合/識別

いくつかの ASR システムは特定のユーザを識別する機能を持っています. この文書では照合やセキュリティのためのシステムについては扱いません.

3.3. 利用法と応用

コンピュータと人間を仲介する仕事全般において, ASR の出番があるかもしれ ません. 現在は下記に挙げたアプリケーションが一般的です.

書き取り

書き取りは, 今日最も一般的な ASR システムの使用法です. これは一般の 文書処理と同様に医学記録転写や, 法律や仕事の書き取りも含みます. システムの精度を向上させるために, 特別な語彙が使われる場合もあります.

音声命令システム

コンピュータのコマンドを実行する ASR システムのことを, 音声命令システムと 定義します. "Open Netscape" や "Start a new xterm" のように音声で命令すると, 発話どおりのコマンドが実行されます.

電話

いくつかの PBX/Voice メールシステムは, ボタンを押すかわりにコマンドを話すことで電話をかけられます.

携帯機器

入力手段が限定されている携帯機器では, 話すことは当然可能です.

医療/ハンディキャップ

多くの人が, 反復運動過多損傷 (RSI), 筋ジストロフィーなどの ような身体的な制限のためにタイピングに問題を抱えています. 例えば聴覚に 問題のある人は, 相手の声をテキストに変えるために電話に接続されたシステムを使用できるでしょう.

組み込みアプリケーション

新しい携帯電話のなかには "Call Home" のような発話を解釈する C&C 音声認識を 備えたものもあります. これは将来の ASR と Linux の主要事項となるかもしれません. なぜ私はまだテレビに話しかけられないのでしょうか?