ニューラルネットワークのおおまかな年表(Vazquez, 2018)


イメージネットコンテンストにおける優勝チーム成績の変化


正則化のイメージ図


手書き数字の例(MacKey, 1997, page 59)


LeNet5 (LeCun, 1998)の模式図


アレックスネットの模式図 (Krizhevsky, Sutskever & Hinton, 2012)


アレックスネット(Krizhevsky, Sutskever & Hinton, 2012) によるイメージネットのテスト画像の認識結果。左が正解した例,右が失敗例

はじめに#

本章はでは人工知能について解説します。 人工知能について最近はほぼ毎日報道されるようになりました。マスメディアは騒ぎ過ぎのように見えますが,それでも次のような事柄は大きく取り上げられたようです。

  1. 音声認識や画像認識で人間の認識能力を越えた(2015年)
  2. 囲碁やテレビゲームを解くプログラムが人間の世界チャンピオンを破った(2016年)
  3. 自動翻訳の性能が格段に向上した(2016年)
  4. フェイク画像,フェイクニュースを生成する人工知能が話題となった(2017年)
  5. フェイク動画が話題となった(2018年)
  6. 自然言語処理でも人間の成績を上回った(2018年)

これらの報道を始めとして多くの関連する報道がなされています。加えて自動運転がもう直ぐ実現するとか,人工知能が人間の仕事を奪うという人工知能脅威論まで聞こえてくるようになりました。この章の目的は巷(ちまた)に溢れる報道に惑わされることなく,どのようなことが起こっているのかを考える材料を提供することを目指しています。

ではなぜ,毎日のように人工知能関連の報道を見聞きするようになったのでしょうか。まず最初にこのことを考えてみましょう。

ある人,モノ,出来事,製品の出現によって,既存の考え方,慣習,規則,常識が一変してしまう劇的な変化が起ることを,英語ではゲームチェンジャー(game changer) と言ったりします。人工知能におけるゲームチェンジャーを 1 つだけあげるとすれば,畳込みニューラルネットワーク (Covolutional Neural Networks: CNN) です。

人工知能研究#

何をもって知的であるとするかは,知能の定義が定まっていない以上決めようがありません。知能検査で測定された数値が知能であるとする考え方もあります。ですが,その考え方では,知能検査で測ることができない知能は存在しないかのような錯覚を引き起こしてしまいます。 このとき,もしある考えに基づいた知能が本当の知能を説明し尽くしているのであれば,その考えに沿って実際に作ってみることができるだろうという考え方があります。実際に作ってみることで,その考えが正しいかどうかを試すことができるからです。このような方法を構成論的アプローチと呼びます[@2014Tanichu]。 ある考えが間違っているのであれば正しく動作しないでしょうし,正しければ正しく動作するはずです。構成論的アプローチの良いところは,枝葉末節の細かい枝葉にこだわらず,全体が俯瞰(ふかん)できることです。断片的な知識 を積み重ねても全体像が見えないことがあります。これに対して構成論的アプローチは動作する全体像を考える必要があるので全体像を見失うことが少ないと言えるでしょう。一方で,未だよく分かっていない部分は類推して作る必要があるので,全体として動作するにしても細部は実体とかけ離れている場合もありえます。構成論的アプローチの対極にある方法を分析的アプローチと呼び心理実験,生理学的実験の多くがこのアプローチに該当します。どちらのアプローチがだけが正しいというわけでなくどちらのアプローチも必要なのだと理解して良いでしょう。 従って人工知能の研究とは知的な振る舞いを実際に作って実証してみるという意味で知能の構成論的アプローチであり,人間知能を扱う心理学で明らかとなった知見をコンピュータやロボットの上に実現する研究でもあります。 この意味では人工知能と知能の心理学とは重複する領域であるということができます。

人工知能の反対の概念を自然知能 (natural intelligence) と呼びます。人間を含めて生物の持つ知的な振る舞いを自然知能と呼び,自然知能を模倣しようとする試みを人工知能と呼びます。人工知能を実現するためにはコンピュータが必要です。ですから人工知能研究の歴史は最長でもコンピュータの歴史と同じことになります。以下に,コンピュータを人間のような振る舞まわせることを考えた最初の研究者であるアラン・チューリング (Alan Turing)の考えたことを紹介します。

知的であるとはどういうことか-チューリングテスト-#

ある機械が知的な振る舞いをすることを測る方法に,チューリングテストがあります(下図)。アラン・チューリングは「機械は考えることができるか?」という問いを考えました


チューリングテスト(Turing, 1956)の模式図(浅川,印刷中)

60 年以上前にチューリングが考えたチューリングテストは,現在でも形を変えて用いられることがあります。人工知能の歴史は,チューリングテストに合格するコンピュータプログラムを作る努力であるとも言えます。チューリングテストを人工知能最古の歴史だとすると,人間の脳を模倣する試みや,脳の働きを数式として表現する研究,人間の替わりをする江戸時代のからくり人形を含めたロボットを考えれば,これらの方が人工知能の研究より歴史が古いと言えます。 人間の脳,ロボット,人工知能の 3 者を結びつけて考える研究者もいます。 ロボットが自立して動くためには周囲の状況を正しく認識する必要がありますが,そのためには物体認識や音声認識などをロボットが行える必要があるからです。 物体認識や音声認識は人工知能の一分野とも考えられますが,そのためには人間の物体認識や音声認識の仕組みを知る必要があります。 このように人間の脳,ロボット,人工知能は関連します。本書は知能の本ですので, ロボットの話題は軽く触れるだけ止めます。

人工知能の歴史#

本節では,人工知能の歴史を概説します。人工知能を大きく区分すると,ニューラルネットワーク系と記号処理系になりますが.現在までにそれぞれ 3 回の流行がありました。人工知能研究の歴史を理解するにはこの 3 回の流行でどのようなことが起こったのかを知る必要があります。

人工知能の教科書を紐解く(ひもとく)と,人工知能という言葉が初めて用いられたのは, 1956 年にアメリカのニューハンプシャー州にあるダートマス大学で開催されたダートマス会議であると書かれています。ですがそれ以前にもチューリングの研究はありましたし,日本のからくり人形まで含めれぱ,機械や人形に知的なふるまいをさせる試みはずっと以前から存在しました。

ダートマス会議では人工知能が取り組むべき 7 つの問題を列挙しています[^1]。

  1. コンピュータの自動化 (Automatic Computers)
  2. 日常言語を用いたコンピュータプログラミング (How Can a Computer be Programmed to Use a Language)
  3. ニューラルネットワーク (Neuron Nets)
  4. 計算規模の理論 (Theory of the Size of a Calculation)
  5. 自己改善 (Self-lmprovement)
  6. 抽象化 (Abstractions)
  7. 乱雑さと創造性 (Randomness and Creativity)

上記の解くべき問題のリストは,あらかじめ定められた課題だけしか扱うことができない融通の効かない機械を越えて人間のように柔軟に状況に対応することが人工知能に求められた課題であると言うことができます。

人工知能研究には 2 つの大きな流れがあります。一つは脳がニューロンを基本単位としたネットワークであることから,ニューロンのネットワークを模倣しようとする試みでニューラルネットワーク 研究です。もう一つは,他の種と異なり我々人間だけが,言語や数学など高度な記号処理体系を持っていることから,これらの記号処理体系をコンピュータに実現しようとする 記号処理 に基づく人工知能研究です。

第一次ブーム#

記号処理系の人工知能ブームは先のダートマス会議が始点となります。一方で,ニューラルネットワーク系の研究は ,パーセプトロン (perceptron) が出発点となりました(Rosenblatt, 1956) 。 パーセプトロンとは「知覚するもの」あるいは「知覚する装置」といった意味の言葉です。 下図にパーセプトロンの概略を示しました。

パーセプトロンの模式図(Rosenblatt, 1956)

の左側にある入力画像からニューロンの連絡を介して右側へと信号が伝達されます。 脳の神経細胞が電気的な信号のやり取りをしています。 一つ一つのニューロンは活動するか,または活動しないかのどちらかです。 パーセプトロンはこのようなニューロンの活動を模倣した人工ニューラルネットワークでした。 図中の がニューロン間の結合の強さを表しています。 ニューロン間の結合の強さが変化することによって,経験を通して入力画像を認識するようになります。 ニューロンの結合が左から右へと一方向だけしかありません。このようなニューラルネットワークを フィードフォワード型のニューラルネットワークと呼びます。 パーセプトロンは経験を通して学習する能力を持っています。パーセプトロンの学習とは の値が変化することを指します。 パーセプトロンは経験を通じて学習することができますが,先述の通りパーセプトロンの学習とは p上図 の部分の変化を指します。学習する部分が 一箇所であるので 学習できる内容,すなわち画像の識別能力には限界がありました。この学習能力の限界のために 第一次ブームは下火になります。

一方の記号処理系の人工知能ブームはサー・アーサー・サミュエル(Sir Arthur Samuel)による チェッカーと呼ばれるボードゲーム(下図)を解く人工知能プログラムが挙げられます。


チェッカーボード

チェッカーのようなボードゲームは自分の手番で選択可能な手に対して,それに応 じた対戦相手の選択の可能な手が決まります。このように考えれば,ゲーム開始時 点を時初期状態として,交互に駒を動かし行くことになります。自駒の動きが複数 手選択可能ならば,どの分岐を選択するかが勝負を左右することになります。相手 も同様に分岐を選択することになりますので,ゲーム全体を,可能な選択肢を上か ら下へ向かう選択肢の木のように表現することができます。 ボードゲームは下図 のように木を探索することと同じ意味です。 木で表された選択肢のうち,どの選択肢を選ぶと勝ちにつながるのかがその局面での評価になります。 図では正負の値によって,評価の良し悪しが表現されています。 その都度の局面で,最終的に最大の値を得ることが可能な選択肢を選ぶことが勝利につながります。

チェッカーの木探索(Samuel, 1959)

木が深くなると探索が大変になります。従ってチェッカーよりも選択可能な手数の多いチェス,将棋,囲碁などは当時のコンピュータでは解くことができませんでした。

第二次ブーム#

第 2 次ブームは,記号処理,ニューラルネットワークともに 1980 年代になります。

ニューラルネットワークについては,パーセプトロンの学習能力の限界を乗り越える手法が提案されたことからブームが始まります。パーセプトロンはニューロン間の結合を遡って更新(学習)することができなかったので, 単層のニューラルネットワークでした。誤差逆伝播法(バックプロパゲーション)と呼ばれる方法が提案されたことにより,パーセプトロンが持っていた能力限界を越えることが可能となりました(Rumelhart et. al.(1986)

記号処理系の人工知能はこの時代,専門家の知識を表現したエキスパートシステムと呼ばれるシステムが代表的です。この時代までのコンピュータの処理能力の進歩に伴って,専門家の知識をルールの集まりとして表現して専門家の知識を肩代わりしようとする試みがなされました。またコンピュータの処理能力の進歩は,チェッカーよりも探索木が大きくなるチェスでも世界チャンピオンに肩を並べるまでになりました。

ところが,エキスパートシステムが専門家の知識を引き出すために労力を要すること, 誤差逆伝播法よりも数学的に洗練されているサポートベクターマシンが提案されたこと[@Vapnik1995], などの理由によりブームは去り,二度目の冬を迎えました。

ニューラルネットワーク,記号処理の両者ともコンピュータの処理能力の進歩の恩恵を受けたと言えます。 ですが,今日の我々から見れば,コンピュータの処理能力はこの時代の研究の限界も示していたことになります。 この時代のコンピュータの能力は今日のスマートフォンの処理能力に劣ります。 そのようなコンピュータの処理能力のため,応用範囲が限定されていたことが指摘できます。

第三次ブーム#

21 世紀に入ると記号処理系の人工知能研究は確率的,統計的な処理を視野に入れ発展してきました。 最も大きな事件はコンピュータ処理能力向上と処理容量拡大により大規模で実用的な問題を解くことが可能になってきたことが挙げられます。大規模で実用的な問題を解くための工夫が提案され蓄積されてきましたが, 2009 年から始まった大規模画像認識コンテスト(通称イメージネット)で 2012 年になって 本章冒頭で紹介した CNN を用いたカナダ・トロント大学のチームが, サポートベクトルマシンを用いた認識性能を 10 パーセント以上引き離して優勝したことで耳目を集めました。


イメージネットコンテスト優勝チームの成績の変化(浅川, 2018)

は大規模画像認識コンテスト(通称イメージネットコンテストILSVRC)の成績を示しています。

横軸は開催年度で,縦軸はその年の優勝チームの成績を表しています。およそ 130 万枚の画像を 1000 種類のカテゴリーに分類するコンテストですが,その成績はモデルが予測するカテゴリーの上位 5 つの中に正解が含まれているか否かで競われます。図は間違えた割合を示してありますので,棒グラフが短い,あるいは小さいほど成績が良かったことを表しています。130 万枚の画像の中には紛らわしい画像が含まれていますので,たとえ人間であっても 100% 正解はできません。 人間の場合 5 %強は間違うようです。ところが 2015 年の優勝チーム(マイクロソフトアジア研究所のチーム)は人間の誤り率よりも低い値を叩き出しました[@2015ResNet]。 2016 年に入って他のモデルも人間超えする性能が得られたと報告されています。すなわち大規模画像認識コンテストの成績を見る限りコンピュータの認識性能は人間を越えたと言って良いでしょう。人間の成績を超えたことは世界的な衝撃を与えました。

技術的には,中間層を多層化する工夫が実用化されてきたため認識精度が向上しました。 第一次ブームのパーセプトロンでは,学習が最上位のニューロンとその直下のニューロンとの間の結合だけに限定されていたのに対して,第二次ブームの誤差逆伝播法では更にその下位に位置するニューロン間の結合についても学習することができました。 第三次ブームのニューラルネットワークは更に深い層のニューロン間の結合についても効率よく学習する工夫がなされていました。

⼈⼯知能の現状#

前節では CNN の多層化と表現について説明しました。本節では CNN に留まらず広く最近の人工知能研究の傾向をとらえることを試みます。

用いられているアルゴリズムから分類すると次の 3 つが代表的です。

  1. 畳み込みニューラルネットワーク(CNN)
  2. リカレントニューラルネットワーク(RNN)
  3. 強化学習(RL)

以下では簡単にそれぞれを説明してみました。

畳み込みニューラルネットワーク(CNN)#

畳込みニューラルネットワーク CNN は近年,画像認識や音声認識で急激な性能向上 をもたらしました。ニュートラルネットワークとは,人間の脳の振る舞い(神経回路)を模した計算モデルを指します。現在の第三次人工知能ブームの火付け役となったのは,深層学習(ディープラーニング)という機械学習の手法です。ここで用いられているモデルがニューラルネットワークであり,ニューラルネットワークの中間層 を多層化したモデルのことを深層学習と言ったりします[@2016Asakawa_corona]。

リカレントニューラルネットワーク(RNN)#

リカレントニューラルネットワーク(RNN)とは, 時間的な変化や順序といった系列情報を扱うニューラルネットワークモデルです。 このため音声認識,自然言語処理,ロボットの生成制御などに用いられています。 時々刻々変化するデータを扱うには,それまでに処理されたデータの系列を文脈として 保持しておく必要があります。 リカレントニューラルネットワークを拡張した長短期記憶モデル(LSTM: Long short-term memory)を 用いる場合が多いです。

応用事例としては,最近マイクロソフトが開発した女子高生人工知能「りんな」の対話生成アルゴリズムが有名です。 LINEであたかも女子高生と会話しているかのようなコミュニケーションができることで話題になりました。

そのほかにも自動翻訳,画像と文章と相互変換(画像を入力するとその画像を説明する文章を生成する,逆にある文章を与えると対応する画像を生成する)などがあります。 リカレントニューラルネットワークを用いた技術は他の従来手法の性能を上回り,現時点での最高性能と認められています。

現段階で,人間が書いたものなのかコンピュータが書いた文章なのか区別がつかない場合すらあります。 新たなチューリングテスト(あるいはチューリングチャレンジ, コンピュータの生成した文か人間が書いた文かが見分けがつかなければ, もはやコンピュータに知性が宿っていると言っても良いだろうという考え方)と言ったりもします。

強化学習(RL)#

三つ目は 強化学習 です。 強化学習という言葉は古い言葉ですが機械学習の文脈では, 環境とその環境におかれた動作主(エージェントと言ったり,ロボットシステムだったりします)が, 環境と相互作用しながらより良い行動を形成するためのモデルです。 動作主は,環境から受け取った現在の状態を分析して, 次にとるべき行動を選択します。このとき将来に渡って報酬が最大となるような行動を学習する手法の一つです。

2015 年には,Google傘下のデープマインドというスタートアップチームが開発した囲碁プログラムAlphaGoがプロ棋士のイ・セドル氏に勝利し話題になりました。 AlphaGo は強化学習を基本技術の一つとして用いています。

⼈⼯知能の影響#

人工知能が仕事を奪う?#

人工知能の問題でよく取り上げられる問題の一つに「トロッコ問題」があります。将来, 汎用人工知能が登場して生き残れる産業とそうでない産業が生まれてしまうと仮定します。 どちらかの産業を活かして,他方は捨てるあるいは,犠牲にしなければいけないジ レンマ生じるのという問題です。

もう一つ,技術的な部分として「人工知能が望ましくない判断をした時に止められるのか?」 という問題もあります。ある意識調査で自動運転車に緊急停止ボタン(キルスイッ チ)は必要か?」とアンケートをとったところ,必要だという方がほとんどだった そうです。実際には,Googleの自動運転技術は人間が運転するよりも安全になって います。ですが,いざという時に人間が制御できないというのは怖いですから。

Google の発表によると,人工知能はすでにキルスイッチの無効化を学習できます。そのた め,人工知能の暴走を防ぐには臨時割込判断を導入する必要があると言われています。

人工知能が反抗しないように,かつ臨時割込診断による仕事の効率低下などの負の効果 を最小化するよう計画する必要があります。しかし,もし人工知能がこの計画を知ってい たら,当然,その裏をかくように振る舞うと予想できます。人工知能が臨時割込判断の時 だけ人間をだますようになると,どうすれば良いのか。これから考えていかなくて はいけない技術的課題です。

これに関連しますが,哲学者ニック・ボストロムは著書『スーパーインテリジェンス』の中で次のようなに書いています。

現在のゴリラの運命は,ゴリラ自身以上に人類に依存している。我々人類の運命もいずれ機械(超知能)に依存するようになるだろう」。つまり,ゴリラの運命を人間が操っていることにゴリラ自身が気づいていないように,超知能も我々に気づかせないようにする

人工知能とこれからの仕事#

人工知能の利点とリスク^2 と題する興味深い論考が日本語に訳されました。平易な訳になっていますので目を通してみると良いでしょう。人工知能がもたらすであろう将来についての恐れる必要なければ,楽観視する必要もないことが書かれています。ですが残念なことに,この日本語訳には十分に根拠が示されていない箇所があります。必要な場合には, そのような主張の根拠は,元となる背景,議論を追いかけることができなければ,いかに尤もらしい主張であっても,単なる扇動に過ぎません。 この日本語訳は主張の根拠や証拠を追いかけることができないという意味で残念な内容ですが,原文の英語の方には根拠,証拠,参考となる情報を追いかけることができるように配慮されています。 重要な情報とは,このように必要であれば読者がその根拠は背景となるデータを追いかけることができる必要があるのですが,残念ながら多くのメディア(インターネットメディアに限らず,マスメディアも同様です)は,その根拠を明示することなく曖昧な情報を流しています。 人工知能に関する情報も,全く同様で,不安を煽るような記事やニュース, 乗り遅れると大変だとか,機械が仕事を奪うというような衝撃的な内容を掲載しています。 最低限の判断基準として,根拠が提示されているか,論説の証拠や根拠を追いかけるための情報が示されていないニュースやサイトの情報は鵜呑みにしないという態度が必要でしょう。 悪質なまとめサイトや流言蜚語に惑わされることなく,人工知能を正しく理解し,正しく活用できるようになってこそ我々の生活は豊かになることでしょう。

人工知能は第4次産業革命とも呼ばれます。 それ以前の産業革命は,農村から都市部への人口流入,および 1次, 2次, 3次産業に従事する人口構成の比率が変化したという社会構造の変化を伴いました。本章で示した人工知能技術により,かつての産業革命に伴って起こった社会構造の変化に比肩する変化を引き起こす可能性があるでしょう。 たとえば,本章の冒頭でも述べた人工知能脅威論は,人工知能が人間の職を奪うという 恐れからです。しかし,いわゆる 3 K の(きつい,きたない,危険な)職業はむしろ人工知能を含む技術によって取って代わられた方が,人間らしい生活を送れることができるとも言えるでしょう。 自動運転についても同様の議論が当てはまると考えられます。人間による自動車の運転には,人間特有の限界があるからです。人間の運転では,どうしても注意が一点に集中してしまう傾向があるために,児童の飛び出しなどの突発的で緊急の事態に対処しきれない状況が想定できるからです。

人間の注意の焦点が一点に集中する傾向があることを,人工知能はあらかじめ予想し,危険を回避することが可能になるとも予想されます。そうすると,むしろ自動運転の方が安全で好ましいとさえ言えるのでしょう。 このときに社会全体として考えなければならないことは,それでも交通事故が発生した場合に,その責任を誰の責めに帰すのかという,法律的,社会的,あるいは道徳的,倫理的問題になります。このような問題は人工知能研究者だけで解決する問題ではなく,社会を構成する全ての人々が議論して解決しなければならない問題であるとも考えます。

社会構造の変化は,現在と異なる新しい職業の創り出す可能性もあり,今現在我々が持っている常識や価値観が変化するものと予想されます。このように人工知能の進歩により,職業の選択や仕事の価値観も大きな変化が予想されます。我々の持つ知能にはこのような人工知能の進歩に対処するための柔軟さ求められることになるだろうと考えます。

[^1]: A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence