![]() |
第8回:データの予測(1)
|
| [DAT3] | [Prev] [Next] | Update: 2003/05/30 | 河路 武志 |
- 相関関係:サンプルデータ全体についての変数間の直線的傾向
提出課題から
(Kさん) 従業員と売上高の相関関数は0.96で非常に相関があるといえる。売上高が高くないと従業 員を雇えないし、売上高が大きいということはその会社の仕事が多いというわけで、従業員が多 くいないと経営できないと思います。 売上高と利益率の関係は0.12でそれほど相関がない。上記にもあるように売上高が高いと 従業員を多く雇う必要があり、人件費が多くかかり、出費が多くかかるので売上高がいいといっ ても必ずしも儲かっているとは限らない。 (Nさん) 売上高と利益率の関係は相関係数が上位2社に関係なく0.1くらいなので 相関関係はないといえる。しかし、散布図で見てみると 売上高が多い企業は利益率が2〜4前後であることに気づく 企業の規模が大きくなるにつれ、利益率が安定してくるようだ売上高と売上高利益率の相関(相関係数 r=0.12)
回帰分析の基本パターンを理解し、分析ツールを使って回帰分析を行う方法を実習する。
2変数の間に結果としての関連性があることを相関と呼ぶ。回帰分析は、2変数に相関がある場合に、一方の変数によって他方の変数を説明する予測式(回帰式)を推定する手法である。
- 既知のサンプルから、説明のための回帰式を推定する
- 回帰式を利用して、既知のデータを説明、未知のデータを予測する
- 散布図と回帰直線のグラフを作成し、回帰分析を理解する
「牛楽」は郊外のロードサイドに展開している焼肉チェーンである。これまで、15エリアに出店し、今後も店舗数の拡大を計画中である。
マーケティング調査によって、それぞれの店舗の「1ヶ月の売上高」と「道路の交通量」に関連があることがわかった。(相関分析)
次の出店候補地として、A,B,Cの三つ国道沿いに適当な出店候補地があることがわかっている。既存店舗で得られたデータから、これら三つの新規店舗候補の売上高を予測したい。
店番号 交通量
(百台/日)売上高
(万円/月)1 149 1310 2 188 1970 3 282 2220 4 183 1700 5 221 1680 6 128 1550 7 153 2050 8 197 2690 9 125 2060 10 77 1260 11 210 2610 12 258 2480 13 254 2500 14 114 1570 15 174 1660 A 125 ???(2060?) B 207 ???(2600?) C 572 ???
すでに営業している店舗の交通量と売上高の間に、どの程度の相関があるのかを分析する。
分 析 分析結果 相関係数 r=0.682であり、強い正の相関がある 散布図
(交通量×売上高)全体としてひとまとまりで、右上がりの分布 相関分析から相関関係が示され、その因果関係も理解できる。よって、以下では、このサンプルデータをもとに、道路の交通量から、各店舗の売上高を説明する予測式(回帰式)を推定することを試みる。
回帰分析
交通量(X)と売上高(Y)に、直線的な関数関係があると仮定する。
回帰式:Y=aX+b
X:交通量(百台/日)
Y:売上高(万円/月)
a,b:パラメータこの回帰式のパラメータa,bを統計学的に推定しようとする手法が、回帰分析である。
最小2乗法
Yi=aXi+b+ei
a,b:推定されるパラメータ
ei:回帰式からの誤差Σei2→最小 となるように、a,bを推定する手法を最小2乗法という。回帰分析で一般的に用いられる手法である。
回帰分析(最小2乗法)については、次回で詳説する。
決定係数
回帰分析によって最適なパラメータa,bが求められたとき、その回帰式の当てはまりの程度が、決定係数R2で表される。
当てはまり ←悪い 良い→ +------------+ 0 ≦ R2 ≦ 1
分析結果
Y=5.5X+960
- a=5.5
- b=960
- R2=0.465
既存店の売上高の説明
推定された回帰式を使って、既存店舗の売上高を説明する。
Y=5.5X+960 のX(交通量)に各店舗の交通量を代入して、
(交通量で説明される売上高)を計算する。
店番号 交通量
(百台/日)売上高
(万円/月)説明売上高
(万円/月)説明の誤差
(万円/月)- X Y e 1 149 1310 1779 -469 2 188 1970 1993 -23 … … … … … 7 153 2050 1801 249 … … … … … 9 125 2060 1647 413 … … … … … 15 174 1660 1916 -256
- 店舗1は、実際の売上高が1,310万円に対して、交通量で説明される売上高が1,779万円である。誤差−469万円は、他のマイナス要因(例えば、競合店の多さ、店の狭さ、サービスの悪さ)に起因すると考えられる。
- 店舗7は、実際の売上高が2,050万円に対して、交通量で説明される売上高が1,801万円である。誤差249万円は、他のプラス要因(例えば、競合店の少なさ、店の広さ、サービスの良さ)に起因すると考えられる。
新規店舗候補の売上高の予測
推定された回帰式を使って、新規店舗候補の売上高を予測する。
Y=5.5X+960 のX(交通量)に各店舗候補の交通量を代入して、
(交通量で予測される売上高)を計算する。
候補 交通量
(百台/日)予測売上高
(万円/月)A 125 1,647 B 207 2,098 C 572 ???
- 候補Aの交通量は125で、店舗9と同じ。このことだけで、売上高の予測値を2,060万円とするのではなく、既存店舗全体の傾向から推定した回帰式で予測した1,647万円が、候補Aの予測値となる。
- 候補Cの交通量は572と、既存店舗の値を大きく超えている。この場合でも、回帰分析は適用できるだろうか?
交通量と売上高のデータ dat08.xls を利用して回帰分析を行う。
「相関分析」シートで、相関分析を行う。
統計量の計算
- 交通量,売上高
- 平均 = AVERAGE (セル範囲)
- 標準偏差 = STDEV (セル範囲)
- 相関係数 = CORREL (交通量のセル範囲 , 売上高のセル範囲)
散布図の作成
「回帰分析」シートで、回帰式のパラメータ(切片、係数)を推定する。
回帰式の推定 「ツール」→「分析ツール」→「回帰分析」 回帰分析ダイアログ
(1)説明される変数(Y)の範囲
(2)説明に使う変数(X)の範囲
(3) (1)(2)で項目を含めて選択したので、ラベルの指定
(4)分析結果の出力先
(5)OK前に必ず確認!回帰分析の出力
既存店舗の売上高の説明
「回帰分析」シートで、説明された売上高、説明の誤差を計算します。
- 説明売上高:[D6] =aの推定値(B46) * X(B6) + bの推定値(B45)
- 説明誤差:[E6] = Yの実績値(C6) - Yの説明値(Y^)(D6)
(注)a,bの推定値のセルを計算式の中に参照するときは、複写することを考えて、絶対番地([F4]で指定)で書かく必要がある。
新規店舗候補の売上高の予測
「回帰分析」シートで、新規店舗候補の予測売上高を計算します。(誤差は計算できない!)
- 予測売上高:[D24] =aの推定値(B46) * X(B24) + bの推定値(B45)
(注)a,bの推定値のセルを計算式の中に参照するときは、複写することを考えて、絶対番地([F4]で指定)で書かく必要がある。
「回帰分析」シート
「回帰分析」シートで、散布図と回帰直線のグラフを作成します。
- B,C,D列[B5:D20] を選択
- グラフウィザード
- 「散布図」
- グラフ完成後、予測売上高の系列をWクリックし、書式設定を変更してパターンを線で結ぶ
「説明売上高」系列の書式設定ダイアログ
完成したグラフ
締切:6/5(木)16:00
- 実習の0〜3を完成させなさい。
- 課題メール本文には、以下の考察を行いなさい。(3行程度)
- 回帰分析の適用例として、どの様な変数間の関係が考えられるか。具体的な二つの変数を挙げて、説明しなさい。
- 例:「気温」から「アイスクリームの売上」を説明する
- 保存するファイル名は、dat08ユーザID(例:dat08ue025555)とする
- ファイルをメールに添付する
《例》
To:kawaji@cc.seikei.ac.jp Subject: dat08 ue025555 課題8 成蹊太郎 回帰分析適用のアイデア 夏暑いと冷たい物が食べたくなる。暑さの変数として「気温」を冷たい物の変数 として「アイスクリームの売上高」を考えれば、この間に、相関関係がありそう だ。よって、気温からアイスクリーム売上高を説明する回帰分析が考えられる。