5 月 24 日の授業では以下の話題を取り上げました

  • CNN と生理学との対応
  • アレックスネット以降のモデル
  • 確率的勾配降下法 オンライン学習,バッチ学習
  • 正則化
  • ドロップアウト
  • One algorithm hypothesis
  • 認識論の流れ

一方でとりあげることができなかった話題は以下のとおりです

  • 非線形活性化関数
  • 最適化手法
  • データ拡張

以下では取り上げた話題について補足説明を行います

生理学,視覚心理学との対応#

  • Hubel and Wiesel のネコとサルの視覚野の神経応答の実験
  • Blackmore のネコの新生児に特定の方位線分だけしか見せなかった実験
  • Felleman and Van Essen の視覚情報処理に関与する領野間の結合図

については前回の授業までで取り上げました。 今回は以下のような論文に基づいて CNN と霊長類における視覚野との対応関係を取り上げました。

  • Yamins (2016) Using goal-driven deep learning models to understand sensory cortex
  • Yamins et al (2014) Performance-optimized hierarchical models predict neural responses in higher visual cortex

ポイントとしては,視覚野の各層は CNN では複数の層で実現されているのだろうということです。 視覚野と CNN の層の集まりとの対応関係を見るために,それぞれの応答特性の相関図をヒートマップとして 示されています。

  • 層間の結合の仕方, アーキテクチャ
    • Fellman and Van Essen の配線図 Felleman and Van Essen (1991) Distributed Hierarchical Processing in the Primate Cerebral Cortex.
  • フィードフォワード(前向き)処理は入力情報を扱い,バックワード(後ろ向き)処理は誤差伝播情報であるが,現在のところそのような生理学的事実は知られていない
  • ハートライン Hartline などの 側抑制 lateral inhibition (これについては多層化して回避できる可能性あり)
    • Hartline and Ratliff (1957) Inhibitory interaction of receptor units in the eye of Limulus. The Journal of general physiology, 40(3), 357-76.
    • Hartline and Ratliff (1958) Spatial Summation of Inhibitory Influences in The Eye of Limulus, and the Mutual Interaction of Receptor Units
  • 背側経路 what と腹側経路 where との 2 経路が我々の視覚情報処理経路として知られている。しかし CNN では penumelate 層まで同じで経路で位置情報と形態情報を扱っている
  • 視覚情報処理の基本構単位 (英語では積み木 building blocks) を探し求めるアプローチが存在する
  • 例えば Julesz のテクストンは視覚研究者 Haar, SIFT などのアルゴリズム開発者と対応
    • Julesz (1981) Textons, the elements of texture perception, and their interactions, Nature.
    • Julesz (1985) Experiments in the Visual Perception of Texture
  • 現象を細かく分析し,その基本構成単位を突き止め,その基本構成単位を組み上げることで全体を理解しようとする試みである。
  • このアプローチは科学の王道であると言える。
  • そうではあっても,異なるレベルの原理を導入して理解することで科学は分科してきた。
  • 素粒子レベルの基本原理から,分子レベルの動作原理を語ることは不可能ではないにしても容易ではない。
  • 分子レベルを基本構成単位としても,細胞レベルの動作原理を説明することは不可能ではないにしても容易ではない。
  • 同様にして,細胞レベルの動作原理を基本構成単位として視覚野の作用原理を探ることは,不可能ではないにしても容易ではない。
  • このようにボトムアップに知識を積み上げていくアプローチと,全体を貫く統一原理を解明し,その統一原理から細部を理解するアプローチとが存在する。
  • 一般には 帰納法 deduction と演繹法 induction と呼ばれる
  • Shape from X は正しかったのか? そのような計算論的目標は設定する必要があるのだろうか
    • Poggio, Torre, and Koch (1985) Computational vision and regularization theory
    • Marr (1980) Vision
  • それよりも 一つのアルゴリズム仮説 One Algorithm Hypothesis のアプローチを考慮する必要があるだろう
  • たとえば フェレット視覚野へ向かう神経繊維連絡を聴覚野へ(またはその逆)た実験や,ハムスターの体性感覚野 と視覚野とを入れ替えた実験でも,正常な個体に形成される受容野と類似の受容野が形成された事実から 一アルゴリズム仮説 One Algorithm Hypothesis が提案されている。
    • Metin and Frost (1989) Visual responses of neurons in somatosensory cortex of hamsters with experimentally induced retinal projections to somatosensory thalamus
    • Roe et al. (1992) Visual Projections Routed to the Auditory Pathway in Ferrets: Receptive Fields of Visual Neurons in Primary Auditory Cortex


Julesz (1981) Fig. 2 より


Poggio ら(1985) Fig. 3 より


  • 高速化の工夫
    • 確率的勾配降下法 SGD: stochastic gradient descent method. Bottou が提案
    • 従来は 1. オンライン学習, 2. バッチ学習 の 2 種類が知られていた
    • オンライン学習は,データを一つづつ学習器に与え,その都度学習を行う,データを与える順番はランダム
    • バッチ学習は,データ全体を学習器に示し,一括して学習させる
    • オンライン学習はその都度学習方向が変化するのに対し,バッチ学習の学習は決定論的である
    • オンライン学習は計算時間が長いが,局所最小解を回避できる可能性がある
    • バッチ学習は計算時間が短いが,決定論的な学習であるため局所最小に留まる可能性がある,とされてきた
    • 確率的勾配降下法,以下 SGD と表記は,両学習方法の中間と考えられ,学習勾配はオンライン学習ほど変動しないが,学習に要する時間は短縮できる,という側面を持つ

      Bottou (2007) より
    • Bottou (2007) Large-Scale Machine Learning with Stochastic Gradient Descent
  • オーバーフィッテイング
    • 初期停止 early stopping: オーバーフィッテイングを防ぐ方法の一つ
      初期停止は,訓練データとテストデータの誤差を観察し,テストデータの性能が上昇する直前までで訓練を停止する手法です。
    • 正則化 regularization 手法
      L2 正則化と呼ばれる手法は結合係数の 2 乗に比例した罰則項を設ける。この場合,主成分分析 principle component analysis,上記の Poggio らによる初期視覚の標準正則化理論と同一視できる。
    • ドロップアウト dropout


Hinton et al (2012) より。上左は訓練データの誤差曲線,横軸が訓練回数,縦軸がエラー 上右は交差エントロピー誤差。ドロップアウトあり無しで誤差曲線が異なる。 下左は検証データの誤差曲線。ドロップアウトなしの場合には,誤差が上昇に転じるが,ドロップアウトありではそのようなことはない。