Sejnowski と Rosenberg(1987) は英語のテキストを発音するように神経回路網 を訓練した。図のように、入力は発音すべき文字の前後 3 文字を合わせた 7 文 字で入力刺激は次々にこの 7 文字の窓内に現れるようになっていた。教師信号 は直接発音できるような音素記号(英語の辞書に載っているような発音記号)であっ た。
オリジナル論文では、29 個の文字(大文字小文字を区別せず、句読点と空白を一
文字と考える)
7、中間層 80 個、出力層、26 個であった。
訓練に用いたパターンは連続した 1024 語からなる文章。
訓練中 NETtalk は幼児が発音するような発音をしめした。最終的に 95 % 程度 の正解率に達し、訓練した単語以外のテスト刺激を用いても 78 % 以上の正解 率を示した。また、結合強度にランダムな雑音を加えたり、中間層の素子をいく つか消去したりすると性能は連続的に低下するが、訓練を繰り返すと回復するこ とが示された。
NETtalk の重要な点は、事前に言語学的な知識を一切必要とせず学習が成立した という点にあります。なお系列情報を処理するネットワークとしては Hinton & Rumelhart などの時間遅れネットワーク TDNN Time Delay Neural Network などもあります。
音声信号を周波数解析器にかけて、その結果を回路網に学習させることで簡単な 音声認識器を作ることができます。一般の音声認識は