PMSP96の学習

PMSP96 とは４人の著者によって書かれた論文で，それぞれの著者の名前が Plaut, McClelland, Seidenberg, Patterson であり 1996 年にこの論文が発表されたので，彼らの使ったデータを PMSP96 というようになった。トライアングルモデルの完成となった論文である。

トライアングルモデルの概略図

トライアングルモデルにおけるデータ表現

PlautらPMSP96は単音節の英単語 2998 語を音韻に変換するモデルを提出している。彼らの用いたのは 3 層のバックプロパゲーションである。

Plautらのモデルをトライアングルモデルという。トライアングルモデルにおける読みの説明は以下のとおりである。書記素層から音韻層への直接経路では、多くの単語と発音規則が一致する規則語と高頻度の不規則語が学習される。一方、低頻度の不規則語は意味系に依存すると仮定される。すなわちトライアングルモデルにおける直接経路では規則語と高頻度例外語が学習され、従って直接経路は単語の頻度効果に、すなわち単語の統計情報(生起確率)に敏感である。規則語および高頻度例外語と低頻度例外語との処理の違いには労働の分割と呼ばれる作用が関与する。

単語の入出力表現にはオンセット、母音、コーダという表現を持ちている。単音節の単語なので、母音については一つだけのコーディングが必要である。加えて母音の前後に子音のクラスターが必要である。母音の前の子音をオンセット、母音の後の子音をコーダという。

まず、入力表現である orthography は、オンセットが Y, S, P, T, K, Q, C, B, D, G, F, V, J, Z, L, M, N, R, W, H, CH, GH, GN, PH, PS, RH, TH, TS, WH の 30 とおりであり、母音は E, I, O, U, A< Y, AI, AU, AW, AY, EA, EE, EI, EU, EW, EY, IE, OA, OE, OI, OO, OU, OW, OY, OW, OY, UE, UI, UY の 27 とおり、コーダは H, R, L, M, N, B, D, G, C, X, F, V, J, S, Z, P, T, K, Q, BB, CH, CK, DD, DG, FF, GG, GH, GN, KS, LL, NG, NN, PH, PP, PS, RR, SH, SL, SS, TCH, TH, TS, TT, ZZ, U, E, ES, ED の 48 とおりであった。すなわち入力表現は計 105 次元のベクトルとして表現された。

出力表現である phonology の表現としては、オンセットが (s, S, C), (z, Z,j,f,v,T, D, p, b, t, d, k, g, m, n, h), (l, r, w, y) の 23 次元、母音が a, e, i, o, u, @, \verb|^|, A, E, I, O, U, W, Y の 14 次元、コーダが (r), (l), (m, n, N), (b, g, d), (ps, ks, ts), (s, z), (f, v, p, k), (t), (S, Z, T, D, C, j) の 24 次元の計 61 次元のベクトルとして表現された。出力表現は彼ら読字の表記方法であり、いわゆる発音記号とは関係がない。表記は次のようなものである。/a/ は POTの、/@/ は CAT の、/e/ は BED の、/i/ は HIT の、/o/ は DOG の、/u/ は GOOD の、/A/ は MAKE の、/E/ は KEEP の、/I/ は BIKE の、/O/ は HOPE の、/U/ は BOOT の、/W/ は NOW の、/Y/ は BOY の、/＾ / は CUP の、/N/ は RING の、/S/ は SHE の、/C/ は CHIN の、/Z/ は BEIGE の、/T/ は THIN の、/D/ は THIS の音を各々表現している。

母音の前後にある子音には順序関係についての制約がある。例えばオンセットクラスターにおける /s/, /t/, /r/ は順序が /str/ でなければならない。出力表現である phonology のオンセットとコーダにあるカッコ内の音が相互に排他的な表現であることを意味している。この制約によって子音の順序が一意的に定まるように。なっている。子音は必ず上に表記した順序で音声化されるという制約がある。

これに加えて単語 CLASP と LASPE とでは /p/ と /s/ との順序関係を表現できないため /ps/ というユニットが加えられている。同じ理由により /ks/, /ts/ というユニットが加えられた。

英語はアルファベットを表記記号とする言語であるが、単語の書記形態の一部が音韻形態に対応しているに過ぎない。そこで orthography のユニットしては単一文字からなるユニットの他に 2 つの文字の組み合わせからなるユニットも用いられた。

これらの表現の詳細については Plaut らPMSP96の原典を参照して欲しい。

実行

./bp3.exe を使って PMSP96 を再現してみる。

$ ./bp3.exe -input PMSP96.input -teacher PMSP96.teach -hidden 30 > PMSP96.wgt

などとして実行する。
ただし果てしなく時間がかかるのでコンピュータを数日つけっぱなしする覚悟ですること。
でき上がったPMSP96.wgtを使って Glushko の非単語リストでテストするには，

./bp3 -hidden 30 -input glushkok-nsyl.input -teacher glushko-nsyl.teach -to 0

などとする。コンピュータをログアウトしてもプログラムを実行させておきたければ，バックグラウンドジョブにする必要がある。これには

$ ./bp3 -input PMSP96.input -teacher PMSP96.teach -hidden 30 1> PMSP96.wgt 2>PMSP96.err &

のように，最後にアンパサンド & をつけて実行すればよい。運が良ければ明日の朝には結果が出ている。

実行結果の例

3 層のバックプロパゲーションネットワークを用いて Pluat らの学習させた 2998 単音節単語を学習させた。中間層のユニット数は彼らのシミュレーションと同じ 100 個にした。MSE=0.0305 程度にまで学習が進行し、このときの正解率はおよそ 94.46 % であった。同じ学習セットをパーセプトロンで学習させる (MSE=0.05)と 87.26 % ほどの正解率になる。

ちなみに中間層のユニット数を 30 にしても学習が成立する。中間層のユニット数 30 のときの MSE=0.05 の場合正解率は 89.26 % であった。

学習の成立したネットワークを用いて、Plaut らの論文にあるような非単語を入力した結果が次の表である。

Glushko(1979)の非単語を読ませた結果
	一貫語	非一貫語
人間	93.8	78.3
PMSP96	97.7	72.1
bp3(中間層100,MSE=0.03)	90.7	53.5
bp3(中間層100,MSE=0.05)	95.3	58.1
bp3(中間層30,MSE=0.05)	88.4	58.1
perceptron(MSE=0.05)	93.0	67.4

人間の被検者が読んだ場合 93.8% の正解率の一貫語が Plaut らのモデルでは 97.7% と読めているのに対して、bp3.exe では 90.7% であり、パーセプトロンでは 93.0% であった。非一貫語についても bp3.exe が 53.5% であるのに対してパーセプトロンでは 67.4% であった。このことは訓練した 2998 単語の正解率ではパーセプトロンの成績は最も悪かったにもかかわらず、非単語の読みに対してはパーセプトロンは人間の読みの成績に近いものになっていることが分かる。このことは逆説的ではあるが、より能力の高いバックプロパゲーションを使うよりも、よりシンプルなパーセプトロンを使った方が、一見すると矛盾するような結果になっている。これは 2998 単語の読みを学習させるためにバックプロパゲーションによる学習では平均二乗誤差が 0.03 になるまで学習させた結果かも知れない。すなわち訓練のしすぎによる過学習が起こってしまったため、非単語の読みにおける一般的な能力が低下してしまったためかも知れない。平均二乗誤差を 0.05 で打ち切ると訓練データである 2998 単語の正解率は 88.4% と落ちるものの Glushko の非単語リストの成績は平均二乗誤差を 0.03 とした場合より向上した。

このように学習をどこで打ち切るかと言う問題は注意を要するものである。また、 Plaut らの結果とやや異なる結果が得られたことは興味深く、示唆に富んでいる。

Asakawa's Neural Network Simulator ♥

PMSP96の学習

トライアングルモデルにおけるデータ表現

実行

実行結果の例