注意については，古くはノーベル賞を受賞した神経心理学においてはスペリーの脳梁切断患者による分離脳の例や，ヘイルマンによる半側空間無視の例が有名です。ポズナーの頭頂葉損傷患者の注意のディスエンゲージメント実験も挙げられます。
一方，認知心理学においては，ブロードベンドの両耳分離聴実験，特徴統合理論が挙げられます。
計算論的観点からは，コッホとウルマンによるサーチライト仮説から実装が試みられてきました。
近年では Itti や Borji によるモデルとデータセットが公開され競技会も開催されています
ここでは深層学習モデルを用いた SOTA である DeepGazeII までの流れを追います。

両耳分離聴 dichotomous listening#

古の文献を紐解くと注意についてはブロードベントの注意モデルに行き着きます。
ブロードベントのモデルは フィルターモデル と呼ばれます。刺激の物理的特徴に基づいて注意が選択されることを仮定します。

Broadbent (1958)

ブロードベントのフィルターモデルを修正したモデルがトリーズマンの 減衰モデル attenuation model になります。

Treisman (1964)

トリーズマンのモデルは カクテルパーティ効果 を説明するモデルになります。
両耳分離聴課題で非注意耳の情報が完全にフィルターアウトされるわけではないことを主張します。
意味的関連によってしきい値が変化して検出可能となると考えます。

文献#

Broadbent, D. (1958) Perception and Communication, Pergamon Press.
Cherry, C. (1953) Some Experiments on the Recognition of Speech, with One and with Two Ears, JOSA, 25(5), 975-979.
Treisman (1964) Selective attention in man, British Meical Bulletin, 20, 12-16.

Sperry (1968) 分離脳 split brain#

神経心理学との関連としては，スペリーの 分離脳 split brain 実験が有名です。脳梁切断患者に対して，左右視野に別々の視覚刺激を提示し，提示した視野と反対側の手で物品を探す課題で神経心理学徒にとっては馴染み深い注意障害でしょう。

From Sperry (1968) Fig. 5

Sperry (1968) Hemisphere Deconnection and Unity in Conscious Awareness, American Psychologist, 28, 723-733.

Posner (1980), Ponser and Cohnen (1984)#

スペリーと同様ポスナーとコーヘンの研究も神経心理学関連です。頭頂葉系の注意障害があると，手がかり刺激と反対側にターゲットが提示されたときに反応が極端に遅れる現象が認められます(下図)。

Posner (1982) Fig. 1, Fig.6: 右頭頂葉障害を呈した患者 (R.S.)の結果。円:ターゲットが左視野提示，三角:ターゲット右視野提示。白点線:非有効手がかり，黒実線:有効手がかり。横軸は ISI。縦軸は反応時間中央値

上図左が刺激例で上図右が結果です。縦軸は一つの条件だけ外れていて途中で縦軸が途切れてプロットされています。注意を外す disengage ことに困難を覚えることが見て取れます。

特徴統合理論 (FIT)#

トリーズマンの 特徴統合理論 モデルを以下に示します。注意によって特徴が統合されるとする仮説です。視覚刺激は視覚皮質において複数の特徴に分解されて処理されるという生理学的証拠を反映したモデルです。色と線分の方位とが異なる処理を受けて，統合されて認識に至ることをモデル化しました。

Treisman (1988) FIT

トリーズマンの実験で顕著な結果である探索非対称性実験の様子を以下に示しました。 Q の中から O を探す課題と，逆に O の中から Q を探す課題では探索効率に差が認められます。下図左が刺激例，下図右が結果です。

Treisman (1988) Fig. 3 探索非対称性

上図右の結果は横軸に同時に提示された刺激の個数であり，縦軸は反応時間です。線分特徴が存在する刺激 (Q) が目標となるか，存在しない (O) が目標となるかによって反応時間に差が認められます。結果は点線，すあんわち特徴が存在しない目標を探索する条件，点線で描画，では同時に提示された刺激数が増加するに従って反応時間が増大します。一方，特徴が存在する目標を探索する条件では，同時提示された刺激の個数によらず反応時間は平坦になります。

以下に同様な実験結果を示しました。

Treisman (1988) Fig. 5

トリーズマンらは上述の実験結果に基づいて，何が並列処理され，何が直列処理とみなせるのかを論じています。並列処理されていれば，目標刺激の検出時間は同時提示される刺激個数とは無関係になるはずですから横軸に同時提示される刺激の個数をとると反応時間曲線は平坦になりました。

一方，視覚探索が逐次的に処理されていのであれば，横軸に同時提示された刺激個数をプロットsるとほとんど統計的な意味が薄れてきます。

スポットライトメタファー#

コッホとウルマン (1985) によるモデルで，顕在地図 saliency map です。勝者占有回路 Winer-take-all circuit を初めて提案したモデルです

Guided Search 2.0#

最初のトップダウン注意を明示的に示したモデルを ガイド付き探索 guided search モデルと言います。
ガイド付き探索モデルの現行バージョンは 4.0 です。
下図は最初に提案された論文から引用しました。

The architecture of the guided search 2.0. Modified from [@1994Wolfe_guidedSearch2] Fig. 2

コッホとウルマン (1985)#

コッホとウルマンは，注意のサーチライトメタファーを提唱しました。文献的には以下とおりです
サーチライト仮説 (クリック, 1984)
スポットライト(ラバージ, 1985)
ズームレンズ(エリクセン, 1986)
実現方法として 勝者占有回路 winnders-take-all circuit:WTA を提案しています。
WTA とは今風の言葉で言えば ソフトマックス関数 です。シグモイドロジスティック関数はソフトマックス関数の 2 選択肢バージョンとみなすことができます。すなわちニューラルネットワークで伝統的に用いられてきた出力関数の一般化であるとみなすことが可能です。
余談 Winner takes it all ABBA)

Itti and Koch のレビュー#

下図はイッチとコッホの総説論文(2001)からそれまでのモデルの概説図です。

Itti and Koch 計算論モデル(1999,2001)

Petersen と Posner のレビュー(2012版)#

神経科学の総説論文論文としてペテルセンとポズナーの論文を紹介します。

腹側系，背側系の注意が異なる領野で処理されていることを示しています

[@2012PetersenPosner] Fig. 2a

実行系として下図の領野が検討されています。動物実験や賦活研究を含みます。

[@2012PetersenPosner] Fig. 2b

下図も同論文からです。

[@2012PetersenPosner] Fig. 2c

木村，米谷，平山レビュー(2013) データセット，オープンソースデモの整備#

木村らは計算モデルの総説論文を上梓しました。
先述の Itti と Koch 以来多くの動作するモデルが提案されています。
自動運転の基礎技術ともなるため多くの研究がなされています。
そのためのデータセットも多く提案されました。

Oxford handbook of attention (2014)#

オックスフォード出版からハンドブックも出版されています。
https://www.oxfordhandbooks.com/view/10.1093/oxfordhb/9780199675111.001.0001/oxfordhb-9780199675111

モデル比較#

下図は，一行に1モデルで各モデルの特徴が網羅されています。Itti ら(2015) 年の論文です。

モデル比較 Itti ら(2015)

各モデルにおける注意のヒートマップを下図に示しました。

上の比較画像

リズム現象#

注意が場所に向くのか，物体に向くのかは議論が行われてきました。
同じくトップダウン注意とボトムアップ注意との区別も議論がなされてきました。
生理学的証拠からトップダウン注意の周波数とボトムアップ注意の周波数が異なることが明らかになっていました。
ところが生理学実験による電極から収集される神経電位の周波数と行動データの関係は明らかではありませんでした。
おそらく行動データで初めて周期現象を示したデータが下図です。下図左は刺激提示系列の概念図です。下図右が得られたデータです。N=14 とこの分野にしては多めのデータ数です。縦軸は条件毎の検出率。横軸は手がかり刺激の SOA です。

Fiebelkorn et al. (2013) Fig. 1 and Fig. 2a

生理実験の様子を下図に示しました。

Buschman et al. (2015) Fig. 3b

刺激と周波数との関係を下図に示しました。

Buschman et al. (2015) Fig. 3c

以上の概念をまとめてサルの脳に附置した図が下になります。

Buschman et al. (2015) Fig. 3a

上図とニューラルネットワーク様のモデルとの概念図を下図に示しました。

Buschman et al. (2015) Fig. 6

ただし，このリズム現象，トップダウンとボトムアップ注意の相互作用を取り入れた計算モデル実装はなされていないようです。

DeepGaze II#

長らく注意モデルは人間の眼球運動をシミュレートすることが難しかったのですが，近年ディープラーニング技術を取り入れて精度向上が認められるようになりました。

文献: DeepGaze II
下図に DeepGazeII の概念図を示しました。
下図左方がディープラーニングを用いた特徴抽出。右方は 読み出しネット readout で注意を読み出します。
下図右方から下に伸びる矢印がガウシアンフィルタを通して最終的な注意の顕在地図を得ることができます。

DeepGazeII の成績を下図に示しました。DeepGazeII より成績の良い最右の棒はゴールドスタンダードすなわち人間の眼球運動のデータです。

Kummerer (2017) Fig. 3A

下図に他のモデルとの比較を示しました。眼球運動データを評価する場合には，情報ゲイン IG, 修正情報ゲイン IGE, ACU: area under the ROC curve (%), シャッフル精度 sAUC, NSS: 正規化済すキャンパス顕在性 normalized scanpath saliency

Kummerer (2017) Fig. 3B