経 営 情 報 分 析

第8回:データの予測(2)
回帰分析とグラフ

Update:2000/06/01
経営学科 河路武志

今日の目標

 回帰分析の理解を深めるために、数学的な定義とグラフ上の意味を学ぶ。

 前回から、2変数の間に相関関係と因果関係がある場合に、一方の変数から、他方の変数を予測する回帰分析を扱っている。

 今回は、回帰分析を理解することを目標とし、数学的な説明とグラフ上の意味を考える。

 


基礎理論

回帰分析

 XとYの間に相関関係と因果関係が想定されるとき、Xの値からYの予測値(ワイハット)を求める。

 例えば、洋菓子チェーン店の新規出店候補について考えると、駅の乗降客数(X)と店の売上高(Y)の間には、高い相関関係(r=0.682)と因果関係が存在する。このとき、乗降客数(X)から売上高の予測値(ワイハット)を求められるよう予測式を推定するのが回帰分析である。

 

最小2乗法

 予測誤差(e)の2乗を全サンプルについて合計したものが最小になるように、パラメータ(a,b)の推定値を求める分析手法である。

 予測誤差の2乗の合計をfとおく。

 a,bで偏微分して、0とおけば、

 この連立方程式を解けば、a,bが求められる。

 

グラフでの理解

最小2乗法による回帰直線の推定
回帰分析を理解する散布図

 回帰式のパラメータ(a,b)のセットによって、回帰式が決まり回帰直線を描くことが出来る。パラメータ(a,b)のセットは無数にあるので、色々な回帰直線の候補(ピンク色)を引いてみる。この候補直線を少しずつづらして、「Σe2→最小」となるような直線が最小2乗法による回帰直線であり、その傾きや切片がパラメータの推定値である。

 

分析結果の解釈

 EXCELの分析ツールを利用した分析結果を例に、その解釈と注意すべき点を指摘する。

回帰統計 意味
重相関 R  0.682  相関係数(r): XとYの相関係数
重決定 R2  0.465  決定係数(R2): 回帰式のあてはまりの程度を表す(0≦R2≦1)
補正 R2  0.424  補正決定係数: 自由度を調整した決定係数。
標準誤差  35.54  予測誤差の標準偏差
観測数  15  推定に用いたサンプル数

 分散分析表省略

  係数 標準誤差 t P-値 下限 95% 上限 95%
切片 96.00 30.95 3.102 0.008 29.15 162.9
X 0.550 0.163 3.363 0.005 0.197 0.903

 ここでは、15店のサンプルを用いて、回帰式のパラメータa(Xの係数),b(切片)の推定を行っている。「真の」回帰式は「神のみぞ知る」ものであり、分析結果はたまたま出店している15の駅の店舗をサンプルとした推定である。

 「真の」回帰係数は、期待値が0.55であり、標準誤差0.163のt分布に従う。

 t検定によって、回帰係数=0の帰無仮説を検定すると、t値=3.363であり、その確率は0.5%である。このことから、帰無仮説「回帰係数は0である」は、95%の信頼度で棄却される。

回帰係数(a)の分布
回帰係数のt分布

 回帰係数の検定は重要である。もし、「回帰係数が0である」可能性が高い場合には、その説明変数を回帰分析に用いる意味が無いことになる。EXCELの出力では、回帰係数のP-値に注目すべきである。

 

パラメータの意味

回帰係数(a=0.55)

 Xが1増加するとき、Yの増加に与える影響を示す。

 売上高予測の例では、「乗降客数が100人多い駅を選択すれば、そこに出店する店舗の売上高は5,500円多い」ことが予想される。

切片(b=96)

 Xが0のとき、Yの値

 売上高予測の例では、「乗降客数が0の駅では、売上高は96万円が期待できる」ことを示している。コレ?ホント?

 

注意すべき点

 回帰分析を解釈し、データの予測を行う場合に、注意すべき点がある。

 回帰分析によって求められた回帰式は、すべての予測に適用できる「神の方程式」ではない。分析に適切なデータ範囲のみに有効な、一次式の数量的予測にすぎない。

 例えば、洋菓子チェーン店の新規候補Cの乗降客数57,200(人/日)は、パラメータ推定に用いたサンプルデータ既存15店舗の範囲(7,700〜28,600)を大きく外れている。このような場合、C候補の売上高予測に回帰式を用いることは適切ではない。範囲以外では、問題の構造が変わる(パラメータの値が変わる)可能性があるからだ。

 

グラフによるまとめ

回帰分析を散布図、回帰直線で理解する
回帰分析を理解する散布図

 


実 習

《靴工場の製造費用予測》

 "BDA08.XLS"は、靴を製造している工場における、過去17四半期の靴の生産量と製造費用とを調査したデータである。あなたは、このデータをもとに、生産量と製造費用との関係を分析し、次の四半期に計画されている生産量から製造費用を予測する役割を担っている。

生産量と製造費用の分析

1.過去17四半期のサンプルで回帰分析を行い、回帰式を推定する

 [ツール]→[分析ツール]→[回帰分析]
  被説明変数:製造費用の実績値  説明変数:生産量の実績値

2.予測値、予測誤差(残差)を計算する

3.実績値(Y)を点表示、回帰式(ワイハット)を線表示で散布図を作成する

実習例
課題7

 


課 題 7

提出期限:6/14(水)

提出方法:電子メールに実習ファイルを添付

 添付ファイル名:bda08ユーザID.xls(例:「bda08ue985555.xls」)

メール本文:分析結果をもとに、以下の問いに答えなさい

宛先(To:) kawaji@mserv.cc.seikei.ac.jp
標題(Subject:) 課題7 ユーザID
本文:
Q1.
Y^ = ? X + ?
 Y^:○○○○(単位)
 X :○○○○(単位) 

Q2.
限界費用=????(万円/ダース)

Q3.
 ○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○

Q4.
 ○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○

-----
添付ファイル名:bda08ユーザID.xls

 メールへのファイル添付の方法は、『情報リテラシ』(センター発行)p.186を参照のこと。

 

応用課題7

 ワークシート bda08a.xls は、「ドリーム遊園地」の入場者数とアイスクリームの売上高のデータである。これをサンプルとして、アイスクリームの売上高の予測式を推定する回帰分析を行いなさい。↑実習に従って分析を行い、以下の問いに答えること。

グラフ例
応用課題7

 


Copyright(C), 1998-1999, KAWAJI,Takeshi,Seikei University, All rights reserved.