実際の計算では、 が小さいと学習回数が 多くなってなかなか収束しません。 そこで、式(16)の代わりに、
のような修正を加えることが行われます。 これは、1つ前の修正量も考慮して結合係数を調整します。 厳密には最急降下法ではなくなりますが、学習が高速になります。 式(26) で前回の修正量と符号が異なると の更新量は 小さな値になるため更新量が極端になるのを抑制する働きもあります。