前回の課題の解説
複数の説明変数による重回帰分析を理解し、分析ツールによる方法を実習する。
複数の説明変数から一つの被説明変数を予測する回帰分析を重回帰分析と呼ぶ。一つの説明変数による単回帰分析と、考え方や分析手順は同じである。
Q1.この回帰式を数式で表しなさい。変数の定義を明記のこと
回帰式:
= 1.51 X + 469
(被説明変数):製造費用の予測値(万円/月)
X(説明変数) :生産量(ダース)
Q2.生産量1単位あたりの製造費用の増加分を特に「限界費用」という。この靴工場でのダースあたりの限界費用はいくらか。
回帰式の回帰係数は、X(説明変数)1単位あたりのY(被説明変数)の変化を表している。
限界費用 = 回帰係数 = 1.51(万円/ダース)
このことは、「追加的な1ダースの靴の製造には、15,100円の製造費用の増加が予想される」ことを意味している。
Q3.生産量が0の時、製造費用はいくらと推定されるか。また、なぜそう言えるのか、簡単に説明しなさい。
回帰式の推定に用いたサンプルの生産量(X)の範囲は、
0 << 1,087 ≦ X ≦ 3,634
回帰式の推定に用いるサンプルデータの費用構造が、生産量0まで変わらないと仮定すれば、
製造費用の予測値:469(万円/月)
Q4.この回帰分析は、洋菓子チェーン店の分析と比べて、予測のあてはまりが良いと言えるか。理由も一緒に簡単に説明しなさい。
靴工場の分析は、洋菓子チェーン店の分析と比べて、あてはまりが良い。
理由:回帰分析のあてはまりは、決定係数R2(重決定R2ではない!!)で測ることができる。
0 < 洋菓子チェーン店(R2=0.465) < 靴工場(R2=0.646) < 1
「予測誤差・標準誤差が小さい」という答えは、惜しい。被説明変数のチラバリに対する予測誤差のチラバリを示すのが、決定係数である。
Σe2:予測誤差(残差)eのチラバリ
Σ(Y−Ym)2:被説明変数全体のチラバリ
+-------------R2------------+ 0 ←低い あてはまり 高い→ 1
(X1,X2,X3,...)→Yという相関関係と因果関係が観察されるとき、複数の説明変数(X1,X2,X3,...)からYの予測値(
)を求める分析を重回帰分析という。
回帰式:
=a0 + a1X1 + a2X2
+ ... + anXn
e=Y−
: 被説明変数
X1,2...,n : 説明変数
a0 : Y切片
a1,2,...,n : 偏回帰係数
e : 残差(予測誤差)
回帰分析の仕組みや分析の手順、結果の解釈は、1変数による回帰分析の場合とほとんど変わらない。説明変数が一つのものを単回帰、複数のものを重回帰という。
一般に、分析に含められる説明変数が多いほど、回帰式のあてはまりは良くなり、決定係数R2は大きくなる(1に近づく)。しかし、やたらと説明変数の数を増やすことは、分析の意味や結果の解釈を分かり難くする。
できるだけ少ない説明変数で決定係数が改善するように、組み込む説明変数の選択のバランスをとることが望ましい。
洋菓子チェーンの例で、店の間口と品揃えにX2=50X3という線形関係がある場合には、回帰式は一つに決まらない。
このように、説明変数間に直線的な関係がある状況を多重共線性という。説明変数間に極めて高い相関がある場合には、どちらか一方の変数を外さなくてはならない。
これまで、洋菓子チェーン店の売上高予測を行う場合に、説明変数として「駅の乗降客数」のみを選択していた。ある程度のあてはまりは得られるが、よりよい予測を行いたい。そこで、売上高と相関の高い「店の間口」「取扱品目数」の二つを説明変数に加えた重回帰分析を行うことにした。
乗降客数(百人/日) |
店の間口(m) |
取扱品目数(品) |
売上高 (万円/月) |
|
ID |
X1 |
X2 |
X3 |
Y |
1 |
149 |
2.3 |
99 |
131 |
2 |
188 |
2.4 |
178 |
197 |
3 |
282 |
2.6 |
110 |
222 |
省略 |
||||
15 |
174 |
3.2 |
151 |
166 |
A |
125 |
2.5 |
100 |
??? |
B |
207 |
3.5 |
150 |
??? |
C |
572 |
4.5 |
200 |
??? |

(1)重決定係数R2 : 0.967 =1−
(4)各パラメータの推定値
(5)偏回帰係数=0の帰無仮説を棄却できない確率
(6)回帰係数全体の有意性検定 全係数=0の帰無仮説を棄却できない確率
回帰式
= 7.6 + 0.51 X1 + 12.4 X2 + 0.288 X3
(被説明変数):洋菓子チェーン店の売上高(予測値)(万円/月)
説明変数
X1:乗降客数(百人/日) X2:店の間口(m) X3:取扱品目数(品)
先の洋菓子チェーン店について、「駅の乗降客数」(X1),「店の間口」(X2),「取扱品目数」(X3)の三つの説明変数から、「売上高」を予測したい。 bda09.xls をフロッピーディスクにコピーして、以下の重回帰分析を行うこと。
授業時には説明しませんでしたが、質問が多かったグラフについて、追加説明します。興味のある人は参考にしてみて下さい。
説明変数が複数ある重回帰分析では、単回帰のような散布図と回帰直線のXYグラフを作ることができません。説明変数がn個の場合、n+1次元グラフとなるからです。
そこで、重回帰の場合、説明変数ごとのXYグラフを作成するか、被説明変数のY(実績値)と
(予測値)のグラフを作成作成するなどの場合があります。
下の例では、回帰式のあてはまりが良くなるに従って(
1→
2→
3)、サンプルが、Y=
の45度線に集まっている様子が観察できます。
離れたセル範囲を同時に選択するには、[Ctrl]を押しながら順にセル範囲を選択していきます。
例:実績値と予測値とのグラフ
|
提出期限:6/28(水) 提出方法:電子メールに実習ファイルを添付 添付ファイル名:bda09ユーザID.xls(例:「bda09ue985555.xls」) メール本文:分析結果をもとに、以下の問いに答えなさい |
Q1. 実習3.の重回帰分析について、Xの偏回帰係数をそれぞれ言葉で説明しなさい。
例:「追加的に靴を1ダース製造すると、製造費用が15,100円増加することが予想される。」
Q2.組み入れる説明変数が増えるにつれて、あてはまりが改善することを具体的な統計量を示して説明しなさい。
宛先(To:) kawaji@mserv.cc.seikei.ac.jp
標題(Subject:) 課題8 ユーザID
本文:
Q1.
(乗降客数の係数)
○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○が予想される。
(間口の係数)
○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○が予想される。
(取扱品目の係数)
○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○が予想される。
Q2.
○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○○○○○○○○○○
○○○○○○○○○○○○○○○○
-----
添付ファイル名:bda09ユーザID.xls
ワークシート bda09a.xls は、「ドリーム遊園地」の入場者数、気温と、アイスクリームの売上高のデータである。これをサンプルとして、アイスクリームの売上高の予測式を推定する重回帰分析を行いなさい。↑実習に従って分析を行い、以下の問いに答えること。
Q1.この回帰式を数式で表しなさい。変数の定義を明記のこと
Q2.説明変数「気温」の偏回帰係数が何を示しているのか説明しなさい。