[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

コンピュータIIJ(統計データ解析)第13回

目次
13.1 回帰分析
13.1.1 相関係数の復習
13.1.2 回帰分析とは
13.2 回帰方程式
13.2.1 最小二乗法
13.2.2 回帰直線の作成
13.2.3 回帰方程式による予測
13.3 分析ツールによる回帰分析
13.3.1 決定係数
13.3.2 回帰係数の検定
13.4 演習13
13.5 レポート課題
13.6 参考文献
索引
y切片   回帰   回帰曲線   回帰係数   回帰値   回帰直線   回帰分析   回帰方程式   決定係数   最小二乗法   残差   散布図   実測値   重回帰分析   従属変数   線形回帰   相関   相関関係   相関係数   単回帰分析   独立変数   非線形回帰   予測値  

13.1 回帰分析

13.1.1 相関係数の復習

はじめに、相関係数について復習します。

2つの変数 x , y があるとき、 xy の関係を 相関関係correlation )と呼びます。

2変数の相関関係を調べるには、まず、 散布図scattergram )を作成します。 散布図を作成することで、全体の傾向が明確になり、外れ値(異常値)の存在も分かります。

ここで、散布図の復習を兼ねて、Excelで散布図を作成します。 取り扱うデータは、ある会社における、ある商品の広告費と売上の関係です。 以下のExcelファイルをダウンロードしてください。

comp2j_13_data.xls

回帰分析(1)
図 13.1  回帰分析(1)

まず、セルB2からC12までドラッグして、メニューバーで「挿入」→「グラフ」とクリックして、グラフ ウィザードを開きます。

グラフ ウィザード1/4で「散布図」をクリックして、「次へ」ボタンをクリックします。

回帰直線の作成(1)
図 13.2  回帰直線の作成(1)

グラフ ウィザード2/4で「系列」が「列」であることを確認して、「次へ」ボタンをクリックします。

回帰直線の作成(2)
図 13.3  回帰直線の作成(2)

グラフ ウィザード3/4で「タイトルとラベル」タブをクリックして、「グラフ タイトル」に「商品Aの広告費と売上」、「X/数値軸」に「広告費(百万円)」、「Y/数値軸」に「売上(百万円)」をそれぞれ入力します。

回帰直線の作成(3)
図 13.4  回帰直線の作成(3)

「凡例」タブをクリックして、「凡例を表示する」チェックを外して、「次へ」ボタンをクリックします。

回帰直線の作成(4)
図 13.5  回帰直線の作成(4)

グラフ ウィザード4/4で「オブジェクト」が選択されていることを確認して、「完了」ボタンをクリックします。

回帰直線の作成(5)
図 13.6  回帰直線の作成(5)

これで散布図が作成されました。

回帰直線の作成(6)
図 13.7  回帰直線の作成(6)

点が全体的に右に固まっていますので、X軸(横軸)の設定を変更します。

散布図のX軸(横軸)を右クリックして、「軸の書式設定」をクリックして、「軸の書式設定」ウィンドウを開きます。

「目盛」タブをクリックして、「最小値」のチェックを外して14と入力して、「OK」ボタンをクリックします。

回帰直線の作成(7)
図 13.8  回帰直線の作成(7)

これでX軸(横軸)の設定が変更されました。

回帰直線(1)
図 13.9  回帰直線(1)

x が増えると y も増えるとき、 xy正の相関関係 があると言います。 x が増えると y が減るとき、 xy負の相関関係 があると言います。 どちらでもないとき、 xy に相関関係はないと言います。

相関関係の強弱を表す指標が 相関係数correlation coefficient )です。 相関係数 r は、−1≦ r ≦1の値を取ります。 散布図ですべての点が上向きの直線上に乗るなら、相関係数 r =1です。 散布図ですべての点が下向きの直線上に乗るなら、相関係数 r =−1です。

13.1.2 回帰分析とは

回帰分析regression analysis )とは、2変数(以上)のデータがあるとき、1つの変数を残りの変数で説明する方程式を求めることです。 この方程式を用いると、未知のデータについての予測ができます。

データが2変数の場合は、1つの変数をもう1つの変数で説明します。 これを、 単回帰分析simple regression analysis )と言います。 データが3変数以上の場合は、1つの変数を残りの2変数以上で説明します。 これを、 重回帰分析multiple regression analysis )と言います。

回帰分析で求められる方程式を、 回帰方程式regression equation )と呼びます。

相関correlation )と 回帰regression )は似ていますが異なります。 相関は2つの変数を対等に扱い、それらの関係を見ます。 一方、回帰は一方の変数をもう一方の変数で説明しようとします。

例えば、ある会社のある商品Aを考えます。 商品Aの売上は何で決まるでしょうか。 要因は色々ありそうですが、ここでは広告費に注目します。 実際、広告に力を入れた年は売上は伸びるでしょうし、広告を控えた年は売上は落ちるでしょう。 つまり、売上を広告費で説明するわけです。 そこで、売上と広告費のデータをもとに、売上を広告費で説明する方程式を求めます。 これが回帰分析、特に単回帰分析です。 ここで求められた方程式が回帰方程式です。

回帰分析で回帰方程式が求められれば、今度は売上の予測ができます。 来年度の広告費が決まったら、回帰方程式に広告費をあてはめれば、来年度の売上が分かるのです。

売上は、広告費だけでは決まらないでしょう。 広告費以外に、営業部の人数も影響しそうです。 そこで、売上と広告費、営業部の人数のデータをもとに、売上を広告費と営業部の人数で説明する方程式を求めます。 これが重回帰分析です。

今日の授業では、簡単のため、単回帰分析のみ説明します。

回帰分析は、色々な場面で利用できます。 広告費と売上以外の例として、以下のようなものが考えられます。

散布図に直線を当てはめて回帰方程式を求める方法を 線形回帰linear regression )と呼び、その直線を 回帰直線regression line )と呼びます。 以下は回帰直線の例です。

回帰直線
図 13.10  回帰直線

散布図に曲線を当てはめて回帰方程式を求める方法を 非線形回帰non-linear regression )と呼び、その曲線を 回帰曲線regression curve )と呼びます。 以下は回帰曲線の例です。

回帰曲線
図 13.11  回帰曲線

この授業では、線形回帰のみ説明します。


13.2 回帰方程式

13.2.1 最小二乗法

回帰分析において、説明する側の変数を 独立変数independent variable )または 説明変数 と呼びます。 説明される側の変数を 従属変数dependent variable )または 目的変数 と呼びます。

今回の場合は、広告費は独立変数で、売上は従属変数です。

回帰方程式から得られる値を 回帰値regressed value )または 予測値predicted value )と呼びます。 それに対して、実際の値を 実測値observed value )と呼びます。 実測値と回帰値の差を 残差residual )と呼びます。

独立変数を x , 従属変数を y とすると、回帰方程式は

yab x

という形になります。 (単回帰分析で線形回帰のみを考えているので。) この a の値を y切片y-intercept )と呼び、 b の値を 回帰係数regression coefficient )と呼びます。

回帰分析における回帰直線は、散布図の点になるべく近くなるように当てはめられた直線です。 この直線は、 最小二乗法method of least squares )と呼ばれる方法によって求められます。 最小二乗法の考え方は以下の通りです。

まず、 y 切片を a , 回帰係数を b として、回帰方程式を yab x とします。 データ( x i , y i )に対して、回帰値 f iab x i を得ます。 残差 e i は実測値 y i と回帰値 f i の差なので、 e iy if i です。 残差が全体として小さくなればよいですが、二乗和 Σ e i 2 を考え、これが最小になるように ab を調節する。 これが最小二乗法です。

最小二乗法
図 13.12  最小二乗法

13.2.2 回帰直線の作成

それでは、商品Aの散布図に回帰直線と回帰方程式を追加しましょう。

散布図の余白をクリックして、メニューバーで「グラフ」→「近似曲線の追加」とクリックして、「近似曲線の追加」ウィンドウを開きます。

「種類」タブをクリックして、「線形近似」をクリックして、「OK」ボタンをクリックします。

回帰直線の作成(8)
図 13.13  回帰直線の作成(8)

これで、回帰直線が追加されました。

回帰直線(2)
図 13.14  回帰直線(2)

もう一度、メニューバーで「グラフ」→「近似曲線の追加」とクリックして、「近似曲線の追加」ウィンドウを開きます。

「オプション」タブをクリックして、「グラフに数式を表示する」チェックを入れて、「OK」ボタンをクリックします。

回帰直線の作成(9)
図 13.15  回帰直線の作成(9)

これで、回帰方程式も追加されました。

回帰直線(3)
図 13.16  回帰直線(3)

変数 x は横軸なので、広告費を表します。 変数 y は縦軸なので、売上を表します。 したがって、この回帰方程式は(四捨五入して)

売上=8.70×広告費+70.86

という意味です。 また、 y 切片は70.86で、回帰係数は8.70となります。

13.2.3 回帰方程式による予測

回帰分析は、変数 y を変数 x で説明することを目的としていますが、変数 x から変数 y を予測することにも使えます。 予測するには、回帰方程式 yab xx に代入して、回帰値 y を求めます。

例えば、商品Aの来年度の広告費を1,500万円(15.0百万円)と決めたとします。 回帰方程式は

y =70.86+8.70 x

なので、

70.86+8.70×15.0=201

(四捨五入しています)つまり来年度は2億0,100万円(201百万円)という売上予測ができます。

ExcelにはTRENDという関数があり、これを使えば回帰方程式を入力しなくても回帰値を計算してくれます。 TREND関数の形式は

TREND(従属変数の範囲, 独立変数の範囲, 回帰値を求める独立変数の範囲)

です。

それでは、セルA14に「来年度」、セルB14に広告費15.0(百万円)、セルC14に数式

=TREND(C3:C12,B3:B12,B14)

と入力してください。

回帰分析(5)
図 13.17  回帰分析(5)

201(百万円)という売上予測が得られます。 広告費(B14)の値を変えれば、売上予測(C14)の値も変わります。


13.3 分析ツールによる回帰分析

13.3.1 決定係数

回帰方程式による予測は興味深いものですが、回帰直線を無理矢理引いたり、散布図が偶然直線的に並んだだけならば、予測も無意味です。 ここでは、回帰方程式が適切かどうかの判断基準として、

の2種類を紹介します。 これらは、Excelの分析ツールで求められます。

メニューバーで「ツール」→「分析ツール」とクリックして、「データ分析」ウィンドウを開きます。

「回帰分析」をクリックして、「OK」ボタンをクリックします。

回帰分析(2)
図 13.18  回帰分析(2)

「入力Y範囲」に従属変数($C$2:$C$12)を入力して、「入力X範囲」に独立変数($B$2:$B$12)を入力して、「ラベル」にチェックを入れて、「出力オプション」の「一覧の出力先」のチェックを入れて、空いているセル(例えば$E$1)を入力して、「OK」ボタンをクリックします。

回帰分析(3)
図 13.19  回帰分析(3)

すると、分析結果が出力されます。

回帰分析(4)
図 13.20  回帰分析(4)

上の表の「重相関R」が相関係数です。 下の表の「係数」列が、 y 切片と回帰係数です。

相関係数 r の2乗 r 2決定係数coefficient of determination )と呼びます。 決定係数は、何パーセント説明しているかという意味で、回帰方程式の精度を表しています。 決定係数は、0≦ r 2 ≦1の範囲で、1に近ければよく説明している、0に近ければほとんど説明していない、となります。

Excelの分析ツールでは、決定係数 r 2 は「重決定R2」の欄に表示されます。 商品Aの場合は、決定係数 r 2 =0.91です。 したがって、商品Aの売上は、広告費で91%説明されることが分かります。

13.3.2 回帰係数の検定

商品Aの売上は「本当に」広告費で説明されるのか、もしかしたら売上は単なる偶然ではないかという心配もあるでしょう。 これは、回帰係数がゼロである確率を考えれば分かります。

もし、回帰係数がゼロならば、売上= y 切片+回帰係数×広告費なので、広告費は無関係となり、売上は広告費で説明されないことになります。 そこで、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)とします。 そして、有意水準5%で検定(実際は t 検定です)を行い、帰無仮説が棄却できるかどうかを考えます。

ただ、分析ツールの回帰分析では、両側5%点ではなく、95%信頼区間が出力されます。 95%信頼区間にゼロが入っていなければ、帰無仮説は棄却できます。 一方、95%信頼区間にゼロが入っていれば、帰無仮説は棄却できません。 商品Aの場合は、回帰係数の95%信頼区間は6.46以上10.95以下で、ゼロが入っていないので帰無仮説は棄却されます。 したがって、対立仮説が採択され、売上は広告費で説明されると言えます。

表「商品Bの広告費と売上」についても回帰分析を試みます。

回帰分析(6)
図 13.21  回帰分析(6)

散布図を作成すると、相関関係はほとんどなさそうです。

回帰直線(4)
図 13.22  回帰直線(4)

分析ツールで回帰分析を行うと、決定係数 r 2 は0.06です。 これだけ決定係数が小さいと、回帰方程式で予測を行っても無意味です。

また、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)として、有意水準5%で検定を行います。 回帰係数の95%信頼区間は−12.15以上6.57以下で、ゼロが入っているので帰無仮説は棄却されません。 したがって、商品Bの売上は広告費で説明されるとは言えません。

回帰分析(7)
図 13.23  回帰分析(7)

13.4 演習13

以下のファイルをダウンロードしてください。

comp2j_13_report.xls

(1)表「商品Cの広告費と売上」から散布図を作成し、回帰直線と回帰方程式を追加してください。

回帰分析(8)
図 13.24  回帰分析(8)
回帰直線(5)
図 13.25  回帰直線(5)

(2)表「商品Cの広告費と売上」をTREND関数で計算し、広告費1,500万円(15.0百万円)の場合の売上予測をしてください。

(3)表「商品Cの広告費と売上」を分析ツールで回帰分析し、決定係数 r 2 の値を求めてください。 また、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)として、有意水準5%で検定を行い、帰無仮説が棄却できるかどうかを答えてください。

回帰分析(9)
図 13.26  回帰分析(9)

(4)表「商品Dの広告費と売上」から散布図を作成してください。 (相関関係がほとんどないので、回帰直線や回帰方程式は追加しません。 売上予測も行いません。)

回帰分析(10)
図 13.27  回帰分析(10)
回帰直線(6)
図 13.28  回帰直線(6)

(5)表「商品Dの広告費と売上」を分析ツールで回帰分析し、決定係数 r 2 の値を求めてください。 また、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)として、有意水準5%で検定を行い、帰無仮説が棄却できるかどうかを答えてください。

回帰分析(11)
図 13.29  回帰分析(11)

13.5 レポート課題

今日の演習13の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(1月11日)を明記してください。


13.6 参考文献


[小西ホームページ]   [目次・索引]   [前の授業]   [次の授業]

2012年1月11日更新
小西 善二郎 <konishi@cis.twcu.ac.jp>
Copyright (C) 2012 Zenjiro Konishi. All rights reserved.