5. 音声認識ソフトウェア

5.1. フリーソフトウェア

ここで挙げるフリーソフトウェアの多くは, ここからダウンロードできます: http://sunsite.uio.no/pub/Linux/sound/apps/speech/

5.1.1. XVoice

XVoice はさまざまな XWindow アプリケーションで使用できる音声認識のソフトウェアで, 書き取りや連続した音声認識が可能です. ユーザがマクロを定義することもでき, 確かな未来のある良いプログラムです. 一度設定すれば, 充分な精度で動作します.

XVoice を使うためには IBM の ViaVoice for Linux (商用の節を見てください) を入手してインストールする必要があります. また ViaVoice を正しく 動作させるために設定が必要です. 加えて Lesstif/Motif (libXm) も必要です. このプログラムは X Window とやりとりするので, X リソースを 利用できるようにしておかなければならないことに注意することも重要です, このため, ネットワークに継がったマシンやマルチユーザのマシンで使用するときは, 気を付けてください.

このソフトウェアは主にユーザ向けです. RPM を入手できます.

HomePage: http://www.compapp.dcu.ie/~tdoris/Xvoice/ http://www.zachary.com/creemer/xvoice.html

Project: http://xvoice.sourceforge.net

Community: http://www.onelist.com/community/xvoice

5.1.2. CVoiceControl/kVoiceControl

CVoiceControl (Console Voice Control の略) は 元々 KVoiceControl(KDE Voice Control) でした. このプログラムはユーザがコマンドを話すことで Linux のコマンドを 実行できる, 基本的な音声認識システムです. CVoiceControl が KVoiceControl に 置き代わりました.

このソフトウェアにはマイクレベルを設定するユーティリティ, 新しいコマンドと発話を追加するための語彙モデルエディタ, 音声認識システムが含まれています.

CVoiceControl は ASR を始めようとする経験豊富なユーザにとって, 素晴らしい出発点となります. 必ずしもユーザフレンドリであるとは言えませんが, 正しく学習させれば, とても役立ちます. セットアップを行う時にはドキュメントを 良く読んでください.

このソフトウェアは主にユーザ向けです.

Homepage: http://www.kiecza.de/daniel/linux/index.html

Documents: http://www.kiecza.de/daniel/linux/cvoicecontrol/index.html

5.1.3. Open Mind Speech

1999 年後半に始まった Open Mind Speech は何度か名前を変えました (かつては VoiceControl, その後は SpeechInput で, それから FreeSpeech です). また今では, オープンソースプロジェクトの "Open Mind Initiative" の一部です. 今の所は完全に機能するわけではなく, 主に開発者向けです.

このソフトウェアは主に開発者に向けたものです.

Homepage: http://freespeech.sourceforge.net

5.1.4. GVoice

GVoice は Gtk/GNOME アプリケーションを制御するために IBM の (フリーの)ViaVoice SDK を使用した音声 ASR ライブラリで, 初期化, 認識エンジン, 辞書操作, パネルのコントロールを行う ためのライブラリが含まれています. 開発は一年以上停滞しています.

このソフトウェアは主に開発者に向けたものです.

Homepage: http://www.cse.ogi.edu/~omega/gnome/gvoice/

5.1.5. ISIP

Mississippi State University の Institute for Signal and Information Processing は その音声認識エンジンを公開しました. このツールキットはフロントエンドと デコーダー, そして訓練モジュールを含んでいます. これは機能的な ツールキットです.

このソフトウェアは主に開発者に向けたものです.

このツールキット (と ISIP についての情報) はここで入手できます: http://www.isip.msstate.edu/project/speech/

5.1.6. CMU Sphinx

Sphinx はもともと CMU で始められ, 最近オープンソースとして公開されました. これは多くのツールと情報を含んだ, かなり大きなプログラムです. これはいまだに"開発中"ですが, 学習のためのソフトウェアと認識装置, 音響モデル, 言語モデル, 作成中の文書を含んでいます.

このソフトウェアは主に開発者に向けたものです.

Homepage: http://www.speech.cs.cmu.edu/sphinx/Sphinx.html

Source: http://download.sourceforge.net/cmusphinx/sphinx2-0.1a.tar.gz

5.1.7. Ears

Ears の開発は完全ではありませんが, ASR を始めたいと思っている プログラマには良いきっかけになるでしょう.

このソフトウェアは主に開発者に向けたものです.

FTP site: ftp://svr-ftp.eng.cam.ac.uk/comp.speech/recognition/

5.1.8. NICO ANN Toolkit

NICO Artificial Neural Network toolkitは音声認識アプリケーションに 最適化されたフレキシブルバックプロパゲーション ニューラルネットワークツールキットです.

このソフトウェアは主に開発者に向けたものです.

homepage: http://www.speech.kth.se/NICO/index.html

5.1.9. Myers' Hidden Markov Model Software

Richard Myers のこのソフトウェアは C++ で記述された HMM アルゴリズムです. これは L. Rabiner の本である "Fundamentals of Speech Recognition" に 記述された HMM のための例と学習ツールを提供します.

このソフトウェアは主に開発者に向けたものです.

情報はここで入手できます: http://www.itl.atr.co.jp/comp.speech/Section6/Recognition/myers.hmm.html

5.1.10. Jialong He's Speech Recognition Research Tool

もともと Linux 向けに書かれたものではありませんが, この研究ツールは Linux でコンパイルできます. 異なる3つのタイプの認識装置を備えています: DTW, Dynamic Hidden Markov Model, Continuous Density Hidden Markov Model です. これは研究と開発用のもので, 完全な ASR システムでは ありません. このツールキットはいくつかの便利なツールを持っています.

このソフトウェアは主に開発者に向けたものです.

さらに多くの情報はここで入手できます: http://www.itl.atr.co.jp/comp.speech/Section6/Recognition/jialong.html

5.1.11. まだ他にもありますか?

上記以外のものをご存じなら私までお知らせください: scook@gear21.com. もしよろしかったら, 紹介頂いたソフトウェアのコピーを入手できる場所も 教えてください. さらに感想も送って頂けると幸いです.

5.2. 商用ソフトウェア

5.2.1. IBM ViaVoice

SDK の未来はどうなるかわかりませんが, IBM は ViaVoice シリーズで Linux をサポートするという約束をしています, (開発者とのライセンス契約は現時点では公式には行われていません, もう少し先になるでしょう. )

商用の (フリーでない) 製品である, IBM ViaVoice Dictation for Linux (http://www-4.ibm.com/software/speech/linux/dictation.html から 入手できます) の性能はとても良いのですが, 基本的な ASR システム (64M RAM と 233MHz Pentium) に比較してさらに大きなシステムを必要とします. $59.95US で Andrea NC-8 マイクも付属しています. マルチユーザで使用するこ とも可能です (しかし, 私はマルチユーザで実験していないので, だれか実験 した 人がいれば私のおしりを叩いてください). このパッケージは次のものを含みま す: 文書 (PDF), 学習ツール, 書き取りシステム, それからインストールスクリプト. 2.2系カーネルをベースにした他の Linux ディストリビューションのサポートも 最新のリリースではされています.

この ASR SDK は自由に入手でき, IBM の SMAPI, 文法 API, 文書, と様々なサンプル プログラムを含んでいます. ViaVoice Run Time Kit は書き取り機能のための ASR エンジンとデータファイル, ユーザユーティリティを提供します. この ViaVoice Command & Control Run Time Kit は音声命令システムのための ASR エンジンと データファイルとユーザユーティリティを含んでいます. この SDK と Kit には 128MB の RAM と Linux 2.2 以上が必要です.

SDK と Kit はここで自由に入手できます: http://www-4.ibm.com/software/speech/dev/sdk_linux.html

5.2.2. Vocalis Speechware

Vocalis と Vocalis Speechware についてのさらなる情報は: http://www.vocalisspeechware.comhttp://www.vocalis.com.

5.2.3. Babel Technologies

Babel Technologies は Babear と呼ばれる Linux SDK を提供しています. これは Hybrid Markov Model と Artificial Neural Network テクノロジに基づいた話者に依存しないシステムです. テキスト音声変換や話者照合, 音素解析に関するさまざまな製品があります. 他の情報については: http://www.babeltech.com.

5.2.4. SpeechWorks

彼らのウェブサイトでは Linux について特に言及していませんが, 彼らの "OpenSpeech Recognizer" はオープンスタンダードである VoiceXML を 使用しています. 他の情報については: http://www.speechworks.com.

5.2.5. Nuance

Nuance はさまざまな *nix プラットフォーム用の音声認識/自然言語の 製品 (現在は Nuance 8.0) を提供しています. 非常に大きな語彙を扱うことが可能で スケーラビリティと障害許容のために特有の分散アーキテクチャを使用しています. 他の情報はここから入手できます: http://www.nuance.com.

5.2.6. Abbot/AbbotDemo

Abbot は非常に大きな語彙, 話者に依存しない ASR システムです. それはもともと, Cambridge University の Connectionist Speech Groupによって 開発され, いまは, SoftSound (商用)に移っています. くわしい情報は: http://www.softsound.com

AbbotDemo は Abbot のデモパッケージです. このデモシステムは約 5000 語の 語彙を持ち, connectionist/HMM の連続した音声アルゴリズムを利用しています. これはソースコードの附属しないデモプログラムです.

5.2.7. Entropic

Entropic の周辺の有能な人は Micro$oft に買い取られてしまいました. . . 製品とサポートサービスは全て消えてしまいました. HTK と ESPS/waves+ の サポートは打ち切られてしまい, 彼らの未来は M$ にかかっています. 古いウェブサイト http://www.entropic.com にさらに情報があります.

K.K. Chin が私に HTK の元々の開発者 (Cambridge の Speech Vision and Robotic Group) がまだそれに対するサポートをしていると情報をくれました. http://htk.eng.cam.ac.ukでは フリーなバージョンも入手できます. Microsoft が現行の HTK のコードの著作権を所有していることには注意してください.

5.2.8. 他の商用製品

より多くの商用の ASR 製品が (L&H を含めて) 近い将来入手できるように なるという噂があります. 私は Comdex 2000 (Vegas) で L&H の代表 2,3 人と 話をしましたが, 誰も Linux リリースについて, また Linux 向けにどの製品のリリースを計画したのかについてさえ情報をくれませんでした. もしこれ以上の情報を持っていれば, 詳細を私 scook@gear21.comに送ってください.