回帰分析の理解を深めるために、数学的な定義とグラフ上の意味を学ぶ。
前回から、2変数の間に相関関係と因果関係がある場合に、一方の変数から、他方の変数を予測する回帰分析を扱っている。
今回は、回帰分析を理解することを目標とし、数学的な説明とグラフ上の意味を考える。
XとYの間に相関関係と因果関係が想定されるとき、Xの値からYの予測値(
)を求める。
例えば、洋菓子チェーン店の新規出店候補について考えると、駅の乗降客数(X)と店の売上高(Y)の間には、高い相関関係(r=0.682)と因果関係が存在する。このとき、乗降客数(X)から売上高の予測値(
)を求められるよう予測式を推定するのが回帰分析である。
回帰式
=aX+b
Y =aX+b+e (e=Y−
)
:被説明変数(従属変数)…「売上高予測」
X :説明変数(独立変数)…「乗降客数」
a :回帰係数…「既存店舗サンプルデータから推定したa=0.55」
b :Y切片…「既存店舗サンプルデータから推定したb=96」
e :予測誤差(残差)
予測誤差(e)の2乗を全サンプルについて合計したものが最小になるように、パラメータ(a,b)の推定値を求める分析手法である。
予測誤差の2乗の合計をfとおく。
f=Σe2
=Σ{Y−(aX+b)}2
a,bで偏微分して、0とおけば、
この連立方程式を解けば、a,bが求められる。
a=(ΣXY−nXmYm)/(ΣX2−nXm2)
b=Ym−aXm
最小2乗法による回帰直線の推定

回帰式のパラメータ(a,b)のセットによって、回帰式が決まり回帰直線を描くことが出来る。パラメータ(a,b)のセットは無数にあるので、色々な回帰直線の候補(ピンク色)を引いてみる。この候補直線を少しずつづらして、「Σe2→最小」となるような直線が最小2乗法による回帰直線であり、その傾きや切片がパラメータの推定値である。
EXCELの分析ツールを利用した分析結果を例に、その解釈と注意すべき点を指摘する。
| 回帰統計 | 意味 | |
| 重相関 R | 0.682 | 相関係数(r): XとYの相関係数 |
| 重決定 R2 | 0.465 | 決定係数(R2): 回帰式のあてはまりの程度を表す(0≦R2≦1) |
| 補正 R2 | 0.424 | 補正決定係数: 自由度を調整した決定係数。 |
| 標準誤差 | 35.54 | 予測誤差の標準偏差 |
| 観測数 | 15 | 推定に用いたサンプル数 |
分散分析表省略
| 係数 | 標準誤差 | t | P-値 | 下限 95% | 上限 95% | |
| 切片 | 96.00 | 30.95 | 3.102 | 0.008 | 29.15 | 162.9 |
| X | 0.550 | 0.163 | 3.363 | 0.005 | 0.197 | 0.903 |
ここでは、15店のサンプルを用いて、回帰式のパラメータa(Xの係数),b(切片)の推定を行っている。「真の」回帰式は「神のみぞ知る」ものであり、分析結果はたまたま出店している15の駅の店舗をサンプルとした推定である。
「真の」回帰係数は、期待値が0.55であり、標準誤差0.163のt分布に従う。
t検定によって、回帰係数=0の帰無仮説を検定すると、t値=3.363であり、その確率は0.5%である。このことから、帰無仮説「回帰係数は0である」は、95%の信頼度で棄却される。
回帰係数(a)の分布

回帰係数の検定は重要である。もし、「回帰係数が0である」可能性が高い場合には、その説明変数を回帰分析に用いる意味が無いことになる。EXCELの出力では、回帰係数のP-値に注目すべきである。
Xが1増加するとき、Yの増加に与える影響を示す。
売上高予測の例では、「乗降客数が100人多い駅を選択すれば、そこに出店する店舗の売上高は5,500円多い」ことが予想される。
Xが0のとき、Yの値
売上高予測の例では、「乗降客数が0の駅では、売上高は96万円が期待できる」ことを示している。コレ?ホント?
回帰分析を解釈し、データの予測を行う場合に、注意すべき点がある。
回帰分析によって求められた回帰式は、すべての予測に適用できる「神の方程式」ではない。分析に適切なデータ範囲のみに有効な、一次式の数量的予測にすぎない。
例えば、洋菓子チェーン店の新規候補Cの乗降客数57,200(人/日)は、パラメータ推定に用いたサンプルデータ既存15店舗の範囲(7,700〜28,600)を大きく外れている。このような場合、C候補の売上高予測に回帰式を用いることは適切ではない。範囲以外では、問題の構造が変わる(パラメータの値が変わる)可能性があるからだ。
回帰分析を散布図、回帰直線で理解する

"BDA08.XLS"は、靴を製造している工場における、過去17四半期の靴の生産量と製造費用とを調査したデータである。あなたは、このデータをもとに、生産量と製造費用との関係を分析し、次の四半期に計画されている生産量から製造費用を予測する役割を担っている。
1.過去17四半期のサンプルで回帰分析を行い、回帰式を推定する
[ツール]→[分析ツール]→[回帰分析]
被説明変数:製造費用の実績値 説明変数:生産量の実績値2.予測値、予測誤差(残差)を計算する
- サンプルの予測値、予測誤差
- 1997年第4四半期、1998年第1四半期の製造費用の予測値
3.実績値(Y)を点表示、回帰式(
)を線表示で散布図を作成する
実習例

|
提出期限:6/14(水) 提出方法:電子メールに実習ファイルを添付 添付ファイル名:bda08ユーザID.xls(例:「bda08ue985555.xls」) メール本文:分析結果をもとに、以下の問いに答えなさい |
Q1.この回帰式を数式で表しなさい。変数の定義を明記のこと
Q2.生産量1単位あたりの製造費用の増加分を特に「限界費用」という。この靴工場でのダースあたりの限界費用はいくらか。
Q3.生産量が0の時、製造費用はいくらと推定されるか。また、なぜそう言えるのか、簡単に説明しなさい。
Q4.この回帰分析は、洋菓子チェーン店の分析と比べて、予測のあてはまりが良いと言えるか。理由も一緒に簡単に説明しなさい。
宛先(To:) kawaji@mserv.cc.seikei.ac.jp
標題(Subject:) 課題7 ユーザID
本文:
Q1.
Y^ = ? X + ?
Y^:○○○○(単位)
X :○○○○(単位)
Q2.
限界費用=????(万円/ダース)
Q3.
○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○
Q4.
○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○
-----
添付ファイル名:bda08ユーザID.xls
メールへのファイル添付の方法は、『情報リテラシ』(センター発行)p.186を参照のこと。
ワークシート bda08a.xls は、「ドリーム遊園地」の入場者数とアイスクリームの売上高のデータである。これをサンプルとして、アイスクリームの売上高の予測式を推定する回帰分析を行いなさい。↑実習に従って分析を行い、以下の問いに答えること。
Q1.この回帰式を数式で表しなさい。変数の定義を明記のこと
Q2.入場者数が100人増加したとき、アイスクリームの売上高はいくら増加することが期待されるか。
Q3.この回帰分析は、洋菓子チェーン店の売上高予測の分析と比べて、予測のあてはまりが良いと言えるか。理由も一緒に簡単に説明しなさい。
グラフ例
