はじめに、相関係数について復習します。
2つの変数 x , y があるとき、 x と y の関係を 相関関係 ( correlation )と呼びます。
2変数の相関関係を調べるには、まず、 散布図 ( scattergram )を作成します。 散布図を作成することで、全体の傾向が明確になり、外れ値(異常値)の存在も分かります。
ここで、散布図の復習を兼ねて、Excelで散布図を作成します。 取り扱うデータは、ある会社における、ある商品の広告費と売上の関係です。 以下のExcelファイルをダウンロードしてください。
まず、セルB2からC12までドラッグして、メニューバーで「挿入」→「グラフ」とクリックして、グラフ ウィザードを開きます。
グラフ ウィザード1/4で「散布図」をクリックして、「次へ」ボタンをクリックします。
グラフ ウィザード2/4で「系列」が「列」であることを確認して、「次へ」ボタンをクリックします。
グラフ ウィザード3/4で「タイトルとラベル」タブをクリックして、「グラフ タイトル」に「商品Aの広告費と売上」、「X/数値軸」に「広告費(百万円)」、「Y/数値軸」に「売上(百万円)」をそれぞれ入力します。
「凡例」タブをクリックして、「凡例を表示する」チェックを外して、「次へ」ボタンをクリックします。
グラフ ウィザード4/4で「オブジェクト」が選択されていることを確認して、「完了」ボタンをクリックします。
これで散布図が作成されました。
点が全体的に右に固まっていますので、X軸(横軸)の設定を変更します。
散布図のX軸(横軸)を右クリックして、「軸の書式設定」をクリックして、「軸の書式設定」ウィンドウを開きます。
「目盛」タブをクリックして、「最小値」のチェックを外して14と入力して、「OK」ボタンをクリックします。
これでX軸(横軸)の設定が変更されました。
x が増えると y も増えるとき、 x と y は 正の相関関係 があると言います。 x が増えると y が減るとき、 x と y は 負の相関関係 があると言います。 どちらでもないとき、 x と y に相関関係はないと言います。
相関関係の強弱を表す指標が 相関係数 ( correlation coefficient )です。 相関係数 r は、−1≦ r ≦1の値を取ります。 散布図ですべての点が上向きの直線上に乗るなら、相関係数 r =1です。 散布図ですべての点が下向きの直線上に乗るなら、相関係数 r =−1です。
回帰分析 ( regression analysis )とは、2変数(以上)のデータがあるとき、1つの変数を残りの変数で説明する方程式を求めることです。 この方程式を用いると、未知のデータについての予測ができます。
データが2変数の場合は、1つの変数をもう1つの変数で説明します。 これを、 単回帰分析 ( simple regression analysis )と言います。 データが3変数以上の場合は、1つの変数を残りの2変数以上で説明します。 これを、 重回帰分析 ( multiple regression analysis )と言います。
回帰分析で求められる方程式を、 回帰方程式 ( regression equation )と呼びます。
相関 ( correlation )と 回帰 ( regression )は似ていますが異なります。 相関は2つの変数を対等に扱い、それらの関係を見ます。 一方、回帰は一方の変数をもう一方の変数で説明しようとします。
例えば、ある会社のある商品Aを考えます。 商品Aの売上は何で決まるでしょうか。 要因は色々ありそうですが、ここでは広告費に注目します。 実際、広告に力を入れた年は売上は伸びるでしょうし、広告を控えた年は売上は落ちるでしょう。 つまり、売上を広告費で説明するわけです。 そこで、売上と広告費のデータをもとに、売上を広告費で説明する方程式を求めます。 これが回帰分析、特に単回帰分析です。 ここで求められた方程式が回帰方程式です。
回帰分析で回帰方程式が求められれば、今度は売上の予測ができます。 来年度の広告費が決まったら、回帰方程式に広告費をあてはめれば、来年度の売上が分かるのです。
売上は、広告費だけでは決まらないでしょう。 広告費以外に、営業部の人数も影響しそうです。 そこで、売上と広告費、営業部の人数のデータをもとに、売上を広告費と営業部の人数で説明する方程式を求めます。 これが重回帰分析です。
今日の授業では、簡単のため、単回帰分析のみ説明します。
回帰分析は、色々な場面で利用できます。 広告費と売上以外の例として、以下のようなものが考えられます。
散布図に直線を当てはめて回帰方程式を求める方法を 線形回帰 ( linear regression )と呼び、その直線を 回帰直線 ( regression line )と呼びます。 以下は回帰直線の例です。
散布図に曲線を当てはめて回帰方程式を求める方法を 非線形回帰 ( non-linear regression )と呼び、その曲線を 回帰曲線 ( regression curve )と呼びます。 以下は回帰曲線の例です。
この授業では、線形回帰のみ説明します。
回帰分析において、説明する側の変数を 独立変数 ( independent variable )または 説明変数 と呼びます。 説明される側の変数を 従属変数 ( dependent variable )または 目的変数 と呼びます。
今回の場合は、広告費は独立変数で、売上は従属変数です。
回帰方程式から得られる値を 回帰値 ( regressed value )または 予測値 ( predicted value )と呼びます。 それに対して、実際の値を 実測値 ( observed value )と呼びます。 実測値と回帰値の差を 残差 ( residual )と呼びます。
独立変数を x , 従属変数を y とすると、回帰方程式は
y = a + b x
という形になります。 (単回帰分析で線形回帰のみを考えているので。) この a の値を y切片 ( y-intercept )と呼び、 b の値を 回帰係数 ( regression coefficient )と呼びます。
回帰分析における回帰直線は、散布図の点になるべく近くなるように当てはめられた直線です。 この直線は、 最小二乗法 ( method of least squares )と呼ばれる方法によって求められます。 最小二乗法の考え方は以下の通りです。
まず、 y 切片を a , 回帰係数を b として、回帰方程式を y = a + b x とします。 データ( x i , y i )に対して、回帰値 f i = a + b x i を得ます。 残差 e i は実測値 y i と回帰値 f i の差なので、 e i = y i − f i です。 残差が全体として小さくなればよいですが、二乗和 Σ e i 2 を考え、これが最小になるように a と b を調節する。 これが最小二乗法です。
それでは、商品Aの散布図に回帰直線と回帰方程式を追加しましょう。
散布図の余白をクリックして、メニューバーで「グラフ」→「近似曲線の追加」とクリックして、「近似曲線の追加」ウィンドウを開きます。
「種類」タブをクリックして、「線形近似」をクリックして、「OK」ボタンをクリックします。
これで、回帰直線が追加されました。
もう一度、メニューバーで「グラフ」→「近似曲線の追加」とクリックして、「近似曲線の追加」ウィンドウを開きます。
「オプション」タブをクリックして、「グラフに数式を表示する」チェックを入れて、「OK」ボタンをクリックします。
これで、回帰方程式も追加されました。
変数 x は横軸なので、広告費を表します。 変数 y は縦軸なので、売上を表します。 したがって、この回帰方程式は(四捨五入して)
売上=8.70×広告費+70.86
という意味です。 また、 y 切片は70.86で、回帰係数は8.70となります。
回帰分析は、変数 y を変数 x で説明することを目的としていますが、変数 x から変数 y を予測することにも使えます。 予測するには、回帰方程式 y = a + b x の x に代入して、回帰値 y を求めます。
例えば、商品Aの来年度の広告費を1,500万円(15.0百万円)と決めたとします。 回帰方程式は
y =70.86+8.70 x
なので、
70.86+8.70×15.0=201
(四捨五入しています)つまり来年度は2億0,100万円(201百万円)という売上予測ができます。
ExcelにはTRENDという関数があり、これを使えば回帰方程式を入力しなくても回帰値を計算してくれます。 TREND関数の形式は
TREND(従属変数の範囲, 独立変数の範囲, 回帰値を求める独立変数の範囲)
です。
それでは、セルA14に「来年度」、セルB14に広告費15.0(百万円)、セルC14に数式
=TREND(C3:C12,B3:B12,B14)
と入力してください。
201(百万円)という売上予測が得られます。 広告費(B14)の値を変えれば、売上予測(C14)の値も変わります。
回帰方程式による予測は興味深いものですが、回帰直線を無理矢理引いたり、散布図が偶然直線的に並んだだけならば、予測も無意味です。 ここでは、回帰方程式が適切かどうかの判断基準として、
の2種類を紹介します。 これらは、Excelの分析ツールで求められます。
メニューバーで「ツール」→「分析ツール」とクリックして、「データ分析」ウィンドウを開きます。
「回帰分析」をクリックして、「OK」ボタンをクリックします。
「入力Y範囲」に従属変数($C$2:$C$12)を入力して、「入力X範囲」に独立変数($B$2:$B$12)を入力して、「ラベル」にチェックを入れて、「出力オプション」の「一覧の出力先」のチェックを入れて、空いているセル(例えば$E$1)を入力して、「OK」ボタンをクリックします。
すると、分析結果が出力されます。
上の表の「重相関R」が相関係数です。 下の表の「係数」列が、 y 切片と回帰係数です。
相関係数 r の2乗 r 2 を 決定係数 ( coefficient of determination )と呼びます。 決定係数は、何パーセント説明しているかという意味で、回帰方程式の精度を表しています。 決定係数は、0≦ r 2 ≦1の範囲で、1に近ければよく説明している、0に近ければほとんど説明していない、となります。
Excelの分析ツールでは、決定係数 r 2 は「重決定R2」の欄に表示されます。 商品Aの場合は、決定係数 r 2 =0.91です。 したがって、商品Aの売上は、広告費で91%説明されることが分かります。
商品Aの売上は「本当に」広告費で説明されるのか、もしかしたら売上は単なる偶然ではないかという心配もあるでしょう。 これは、回帰係数がゼロである確率を考えれば分かります。
もし、回帰係数がゼロならば、売上= y 切片+回帰係数×広告費なので、広告費は無関係となり、売上は広告費で説明されないことになります。 そこで、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)とします。 そして、有意水準5%で検定(実際は t 検定です)を行い、帰無仮説が棄却できるかどうかを考えます。
ただ、分析ツールの回帰分析では、両側5%点ではなく、95%信頼区間が出力されます。 95%信頼区間にゼロが入っていなければ、帰無仮説は棄却できます。 一方、95%信頼区間にゼロが入っていれば、帰無仮説は棄却できません。 商品Aの場合は、回帰係数の95%信頼区間は6.46以上10.95以下で、ゼロが入っていないので帰無仮説は棄却されます。 したがって、対立仮説が採択され、売上は広告費で説明されると言えます。
表「商品Bの広告費と売上」についても回帰分析を試みます。
散布図を作成すると、相関関係はほとんどなさそうです。
分析ツールで回帰分析を行うと、決定係数 r 2 は0.06です。 これだけ決定係数が小さいと、回帰方程式で予測を行っても無意味です。
また、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)として、有意水準5%で検定を行います。 回帰係数の95%信頼区間は−12.15以上6.57以下で、ゼロが入っているので帰無仮説は棄却されません。 したがって、商品Bの売上は広告費で説明されるとは言えません。
以下のファイルをダウンロードしてください。
(1)表「商品Cの広告費と売上」から散布図を作成し、回帰直線と回帰方程式を追加してください。
(2)表「商品Cの広告費と売上」をTREND関数で計算し、広告費1,500万円(15.0百万円)の場合の売上予測をしてください。
(3)表「商品Cの広告費と売上」を分析ツールで回帰分析し、決定係数 r 2 の値を求めてください。 また、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)として、有意水準5%で検定を行い、帰無仮説が棄却できるかどうかを答えてください。
(4)表「商品Dの広告費と売上」から散布図を作成してください。 (相関関係がほとんどないので、回帰直線や回帰方程式は追加しません。 売上予測も行いません。)
(5)表「商品Dの広告費と売上」を分析ツールで回帰分析し、決定係数 r 2 の値を求めてください。 また、帰無仮説 H 0 は回帰係数がゼロである(広告費で説明されない)とし、対立仮説 H 1 は回帰係数がゼロでない(広告費で説明される)として、有意水準5%で検定を行い、帰無仮説が棄却できるかどうかを答えてください。
今日の演習13の答案(Excelファイル)をメールで提出してください。 差出人は学内のメール・アドレス(b08a001@cis.twcu.ac.jpなど)とし、宛先はkonishi@cis.twcu.ac.jpとします。 メールの本文には、学生番号、氏名、科目名、授業日(1月11日)を明記してください。