自己組織化についての個人的な雑感

浅川伸一 <asakawa@twcu.ac.jp>

自己組織化とは

広義の定義

はじめに非常に抽象化して「自己組織化」を説明すれば、「自己組織化システムと は、経験と環境の関数として基本構造が変化し、合目的的システムが自然にでき上 がること」と定義することができるでしょう。例えば、人間は自己組織化システム です。だれもが一個の有精卵から次第に複雑な構造を発生させて行ったのですから。 もっとも、すべての生物は自己組織化システムですし、太陽系も自己組織化システ ムだと言うことができます。あるいは、もっと大きく銀河系、宇宙全体は自己組織 システムであると考えることができるかも知れません。

脳はシナプス結合の可塑性によって、神経細胞間の結合状態が変化する自己組織化 システムです。感覚器官を通じて外界の情報を取り入れ、効果器(手や足)を通じて 外界に働きかけています。 この外界との相互作用が自己組織化システムのキーポイントです。 閉じたシステムでは絶対に複雑なシステムは形成されません。 熱力学の第 2 法則に矛盾することはどんな場合でもあり得ないからです。脳のなかのどこかに外界に対するイメージ、いわば世界像が形成され、この世界像 に基づいて合目的的な思考や行動が出現できます。この開いた系における自己組織 化は散逸構造とかシナジェニックスと呼ばれることもあります。

自己増殖するロボット

John von Neumann は晩年「機械は成長したり、増殖したりすることは可能か」と いう問題を考えました。彼によれば原理的には可能だと言うことになります。彼は ロボットが周囲にある部品を集めて自分と同じものを作っていくというモデルを考 えました。自分の身体と同じものができるためには、ロボットは自分の身体を調べ るか、または自分自身の構造情報を持っていたければなりませんが、その情報もす べて部品からなる構造体に保持されていなければなりません。

ノイマンはまずセルラモデルで自己増殖を考えました。このモデルは無数の同じ構 造をしたセル(細砲)が格子状に配列されている広い平面を考えます。彼はこの平面 上に万能チューリングマシンが作り込めることができることを証明しました。万能 チューリングマシンが作れたということは、各セルの状態を決めることでセル平面 上に任意のコンピュータを埋めこむことができたということです。自己増殖はセル 平面の別の場所に自分と同じコンピュータを作れるかという問題になります。万能 製作機械が自分自身の設計図を埋めこんでコンピュータを作ることができれば良い わけです。自分の子どもの機械を作るのに用いられ、さらに設計図を複写してその 機械に与えるという形で自己増殖機械を作ることができるのです。ここまで説明し て来たところで気づいた人がいるかも知れませんが、われわれ生物の細砲は分裂す るときに、まさに同じことを行なっているわけです。DNA に含まれるアミノ酸の組 み合わせが自己複製を行ない、複雑な生物を形成させることができます。 DNA の構造は突然変異を経てより有用なシステムになることを考えれば、生物はノ イマンが考えた以上のシステム記述がなされていると見ることも可能かと思います。 実際に小さなパーツをランダムに結合させることによって簡単なロボットを作ると いう実検も行なわれています。

生命の起原

さらに始めから始めるとすれば、30 億年前原始地球の原始スープの中から長い年 月をかけて自己複製を始めた生物の発生にさかのぼることができるでしょう。最初 の生命とは簡単な自己複製機能を持った高分子タンパクだったのでしょうか。原始 生命の出現に超越的な創造者の存在を仮定するべきなのでしょうか?それとも、現 在の生物の持つ自己複製機能の創発を認めるべきなのでしょうか?現代生化学の研 究成果は、超越的な創造者の存在を仮定しない生命発生のシナリオを描き始めてい るように思われるのです。この単純な自己増殖機能を持ったタンパクからやがて細 砲が作られ単細胞生物へ、さらに多細胞生物へ、さらに陸上へと進出し、火を発見 し、文字を発明し、知的活動を行なうよう実例が今の私たちです。生物が自身の知 的活動をシミュレートするようになるまでには、多用なレベルでの自己組織化が行 なわれて来たのでしょう。

問題の本質はどこにあるのか

さて、以上述べたように「自己組織化」は非常に壮大なテーマです。この問題に直 接答えるのには私には荷が重すぎます。現代的な意味でのニューラルネットワーク にとっても上記のような意味での「自己組織化」は実現されていません。現在のニュー ラルネットワークにできることは、極論すれば、外界の構造を獲得することができ るという点です。もうすこし具体的にいえば、外部入力の統計的構造を内部のシナ プス伝導効率の変化として表現することができる、ということです。ここから、知 的な活動を創発できることの間には厖大な距離があります。ここでは自己組織化と いう壮大なテーマの入口、外界の情報から意味のある構造を作りだす、という点に 的を絞って説明します。

外界の情報すなわちデータの相互関係を効率良く表現することは情報科学の分野で も中心的な問題であり、おそらくこのような能力が脳の働きの特徴の 1 つである ということができるでしょう。外界の構造が脳内の地図として表現されていること は以前にも述べました。網膜上の位置と第一次視覚野、内耳の周波数特性と第一次 聴覚野との関係などです。大脳皮質全体のたかだか 10 % を占める第一次感覚野 で起こっていることの類推から、特定のカテゴリーにおける知識表現が脳の各部位 の位置関係として表現されているという可能性があるだろうと考えます。

すなわち、さまざまなレベルの情報表現の自己組織化に対して、たった 1 つの同 じ機能的原理が働いているのではないか、という仮説です。第一次感覚野で表現さ れている情報表現と同じ機能的原理が、知的なレベル(各種の連合野、あるいは前 頭葉)でも同じであると考えてはいけない理由はないはずです。

仮にこの同一の機能的原理が高次の知的活動のためにも働いているのなら、低次の 感覚受容野から階層的に高次の連合野にいたるまで自己組織化によって我々の知的 活動のある部分が説明可能なのかも知れません。自己組織化によって高度に抽象的 な概念が階層的に重ね合わさっていた場合にどのようなことが起こるのでしょうか。 第1次感覚野が物理的な特徴量を表現し、第2次感覚野が具体的な概念を表現して いるとしたら、連合野は抽象的な概念を表象しているのかも知れません。連合野の 連合野である前頭葉では概念の概念の概念が形成されているというのは誇張のしす ぎなのでしょうか。

教師なし学習

パターン認識の立場でニューラルネットワークにおける自己組織化を捉えるのなら 教師なし学習であるということができます。この意味では教師ありの学習の場合に 比べて見込のない問題にも見えます。ですが次のような理由からやはり教師なし学 習も重要なのです。

パーセプトロンモデル

$\mb{X}$ は入力データセットで、$p$ 個のニューロンからなる入力層に与えられ る $n$ 個のサンプルデータであるとします。これらのニューロンから $m$ 個の出 力層ユニットに全結合している場合を考えます。

出力層が $1$ 個しかない場合

簡単のため出力層のニューロンが $1$ 個しかない場合 ($m=1$) を考えると、 $k$ 番目の入力パターンに対する出力層ニューロンの出力は以下の式、
\begin{displaymath}
y_k = \sum_i^p w_{i}x_{ki} = \IP{\mb{w}}{\mb{x}_k}.
\end{displaymath} (1)

に従う、すなわち線形出力ユニットを仮定します。ここで、$w_{i}$ はパターン $k$ が与えられたときの$i$ 番目の入力層ユニット $x_{ki}\,(1\le i\le p,
1\le k\le n)$ と出力層ユニットの結合係数です。

パターン $k$ が与えられたときの $i$ 番目の入力層ユニットから出力層ユニット への結合係数 $w_i$ が式(2)のような Hebb の学習則

\begin{displaymath}
\Delta w_i = \eta\, y_k\,x_{ki}
,
\end{displaymath} (2)

を用いて更新されたとすると、$w_i$ の漸化式は以下のようになります。
\begin{displaymath}
\Delta w_i(t+1)
= w_i(t) + \Delta w_i
= w_i(t) + \eta\,y_k\...
... w_i(t) + \eta\,\sum_i^p w_{i}x_{ki},\,\,\mbox{(for all $k$)}.
\end{displaymath} (3)

$w_i$ をまとめて $\mb{w}$ とベクトル表現すれば
\begin{displaymath}
\Delta \mb{w}(t+1)
= \mb{w}(t) + \Delta\mb{w}
= \mb{w}(t) + \eta\,\IP{\mb{x}_k}{\mb{w}}\mb{x}_k,\;\;\mbox{(for all $k$)}.
\end{displaymath} (4)

もし仮に学習が起こったとします。この学習成立(収束)した時点での $\Delta\mb{w}$$\mb{0}$ になる(すなわちこれ以上結合係数の更新が行なわれ ない)ことが期待されるので、全入力パターンの平均を考えて

\begin{displaymath}
\mb{0}
= \frac{1}{n}\sum_{k=1}^n \Delta\mb{w}^{(k)}
= \eta\...
...}^{(k)}} \mb{x}^{(k)}
= \eta\,\frac{1}{n}\,\mb{X}'\mb{X}\mb{w}
\end{displaymath} (5)

が成り立っていなければなりません。

ところが $\mb{X}'\mb{X}$ は、実対称行列であり、固有値はすべて正で固有ベク トルは直交します。すなわち Hebb の学習則では有限回の学習によって解が求める ことができません(実際には最大固有値に対応する固有ベクトルの方向に際限無く大きくなっ ていきます) $\mb{X}^{(r)}\rightarrow\mb{X}$ を求める際の中心化によって rank($\mb{X}$)$=m-1$ だから、少なくとも 1 つ 0 固有値が存在します。 すななち、 $\mb{X}'\mb{X}$ が(統計学の意味で)分散共分散行列になっていれば Hebb 則 によって $w$ は最大固有値に対応する固有ベクトルの方向を向くことが期待さ れるわけです。

そこで、式(2) を修正して

\begin{displaymath}
\Delta w_i = \eta\, y_k\Brc{1-y_k}\,x_{ki}
\end{displaymath} (6)

のように変形すると結合係数は最大固有値の方向を向き、かつ収束することが Oja (1982) によって証明されています。

$\mb{X}$ が 2 重中心化されていれば、rank $\Brc{\mb{X}}=p-1$ が保証されるこ とになります。

\begin{displaymath}
\mb{X}'\mb{X}
= \Brc{\mb{P}_M^\bot \mb{X}\mb{P}_M^\bot}'
\...
...P}_M^\bot}
= L\Brc{\mb{X}'\mb{X}} - L^\bot\Brc{\mb{X}'\mb{X}}
\end{displaymath} (7)

ここで、すべての要素が $1$ であるベクトルへの射影演算を $L(\cdot)$ と表わ しました。直交射影行列の固有値は常に $1$ であることを考慮すると、式 (5) の固有値問題は
\begin{displaymath}
\mb{w}
= \mb{X}'\mb{X}\mb{w}
\end{displaymath} (8)

となって固有値 $1$ に対応する固有ベクトルを求める問題と同一になります。 さらに、$\mb{X}$ が Young-Householder 変換によって 2 重中心化されていれ ば、Hebb 則によって得られる解と古典的多次元尺度構成法の解が一致すること になります。

$\vert\mb{w}\vert=1$ になることの証明

出力 $x$ の分散を考えれば
\begin{displaymath}
\frac{1}{n}\sum^n_{k=1}y^2_k = \mb{w}'\mb{X}'\mb{X}\mb{w}
\end{displaymath} (9)

です。ここで $\IP{\mb{w}}{\mb{w}}=1$ の条件のもとで $x$ の分散を最大化する $\mb{w}$ は Lagrange の未定乗数 $\lambda$ を用いて
\begin{displaymath}
E= \mb{w}'\mb{X}'\mb{X}\mb{w} - \lambda\Brc{\mb{w}'\mb{w}-1}
\end{displaymath} (10)

$\mb{w}$ で偏微分して $0$ とおいた式
\begin{displaymath}
\frac{E}{\partial \mb{w}} = 2 \mb{X}\mb{w} - 2\lambda\mb{w} = 0
\end{displaymath} (11)

を解いて
\begin{displaymath}
\mb{X}\mb{w} = \lambda\mb{w}
\end{displaymath} (12)

が平衡状態で成り立つことになります。式(12) は式 (8) と同じ形をしています。ここで
\begin{displaymath}
\lambda = \mb{w}'\mb{X}\mb{w} = \mb{w}'\lambda\mb{w} = \lambda\vert\mb{w}\vert^2
\end{displaymath} (13)

となるので、$\vert\mb{w}\vert=1$ が証明されました。