自然言語処理前史#

第一次ブーム 1960 年代極度の楽観論: 辞書を丸写しすれば翻訳は可能だと思っていた，らしい...
第二次ブーム統計的自然言語処理
- 統計的言語モデル statistical language model
- Chris Manning (スタンフォード大学)) and Schutze (1999) 著。定番の教科書 Fundations of Statistical Natural Language Processing, あるいはこちら
- もう一つ定評の教科書 Jurafsky 著) と Martin 著 Speech and Language Processing は改訂版が出版されました。ニューラルネットワークによる言語モデルも載っています。

用語解説#

BoW: Bag of Words 単語の袋。ある文章を表現する場合に，各単語の表現を集めて袋詰めしたとの意味。従って語順が考慮されません。"犬が男を噛んだ" と "男が犬を噛んだ" では同じ表現になります。LSA, LDA, fastText なども同じような表現を与えます。
TF-IDF: 単語頻度 (Term Frequency) と逆(Inverse) 文書頻度 (Document Frequency) で文書のベクトル表現を定義する手法です。何度も出現する単語は重要なので単語頻度が高い文書には意味があります。一方，全ての文書に出現する単語は重要とは言えないので単語の出現る文書の個数の逆数の対数変換を用います。このようにしてできた文章表現を TF-IDF と言います。

文献では言語モデルを LM と表記される。
統計的言語モデル statistical language model。言語系列に確率を与えるモデルの総称。良い言語モデル LM は，有意味文に高い確率を与え，曖昧な文には低い確率を与える。言語モデルは人工知能の問題。
n-gram 言語モデル
指標: BELU, perplexity
課題: NER, POS, COL, Summary, QA, Translation

類似した言語履歴 $h$ について, n-gram 言語モデルは言語履歴 $h$ によって言語が定まることを言います。
実用的には n-gram 言語モデルは $n$ 語の単語系列パターンを表象するモデルです。
n-gram 言語モデルでは $n$ の次数増大に従って，パラメータは指数関数的に増大します。
すなわち高次 n グラム言語モデルのパラメータ推定に必要な言語情報のコーパスサイズは，次数増大に伴って，急激不足します
Wikipedia からの引用では次式: $p(w_1,\dots,w_m)=\prod_{i=1}^{m} P(w_i\vert w_1,\ldots,w_{i-1})\simeq \prod_{i=1}^{m}p(w_i\vert w_{i-(n-1)},\ldots,w_{i-1})$
上式では $m$ ですが，伝統的に $n$ グラムと呼びます。 $n=1$ であれば直前の 1 つを考慮して次語を予測することになります。

余談¹ ですが

などと呼ばれます。

図: フィードフォワード型ニューラルネットワーク言語モデル NNLM [@2003Bengio],[@2007Schwenk].

2011 Mikolov Fig.3

図: バッチ更新の例。赤い矢印は誤差勾配がリカレントニューラルネットワークの時間展開を遡っていく様子を示している。

五月蝿いことを言えば Manning (1999, p.193) によると単語 gram はギリシャ語由来の単語だそうです。従って gram に付ける数接頭辞もギリシャ語である教養を持つべきです。そうすると $n=1$ : mono-gram, $n=2$ : di-gram, $n=4$ : tetra-gram が教養です。 $n=3$ はギリシャ，ローマ共通で tri-gram です。日常会話では $n=4$ をクワッドグラム(ラテン語由来)やフォーグラムと呼ぶことも多いです。 ↩