|
第9回: データの予測(2)
|
| [DAT] | [Prev] [Next] | Update:2003/06/06 | 河路 武志 |
提出課題から
(Kさん) よく勉強する人ほど成績がよい。勉強の変数として「勉強時間」、成績の変 数として「テストの得点」を考える。この間には相関関係がありそうだ。これ より、勉強時間からテストの得点を説明する回帰分析が考えらる。 (Mさん) 夏暑いと家の中を涼しくする物がほしくなる。暑さの変数として「気温」を涼 しくするものの変数として「エアコンの売上高」を考えると、この間に、相関 関係がありそうだ。よって、気温からエアコンの売上高を説明する回帰分析が 考えられる。 (コメント)実際、エアコン・メーカーなどでやってます (Uさん) 私は駅の近くにある喫茶店でバイトしているが、そこにくるお客の数にはもの すごいばらつきがある。10分位来ないと思えば一気に7人ぐらいが列をつく る時もある。最近わかったことだがどうも電車の本数に影響しているらしい。 電車も3分おきに等、1時間にかなりの本数がくるときもあれば、10分おき に等、ほとんど来ないときもある。1時間にくる電車の本数の多い時間帯はそ の時間帯の喫茶店の売上高も良いのだ。 変数を「電車の本数/1h」と「喫茶店の売上高/1h」と考えればこの間に相関関 係がありそうだ。よって、1時間あたりの電車の本数から1時間あたりの売上 高を説明する回帰分析が考えられる。 (コメント)実体験に基づいているので、説得力がありますね。 (Iさん) 雨などが降ると外に出かけたくなくなり、買い物や外食が面倒になりデリバリ ーなどに頼りたくなる。 雨などの変数として「天気」を、デリバリーの変数として「宅配ピザ売上高」 を考えると、相関関係があるようである。 よって、天気から宅配ピザ売上高を説明する回帰分析が考えられる。 (コメント)「天気」をどのような変数として測定するかが問題ですね。天気のように、量的変数ではなく、質的変数の場合の回帰分析も終わりに扱います。 (Nさん) 物件の「面積」と「価格」 アパートやマンションを借りようと思った場合に、 諸条件が同じような物件であれば部屋数が多く広 いほうが高くなる。そこで物件の価格と面積のあ いだには相関関係があると考えられる。よって面 積から価格を説明する回帰分析が考えられる。 (コメント)他にも、駅からの遠さとか、設備(ベランダ)の有無も価格に影響しますね。
回帰分析の理解を深めるために、統計学的な定義とグラフ上の意味を学ぶ。 前回から、2変数の間に相関関係と因果関係がある場合に、一方の変数から他方の変数を説明・予測する手法である回帰分析を扱っています。
- 既知のサンプルから、予測式(回帰式)を推定する
- 予測式を利用して、未知のデータを予測する
- 回帰分析をグラフ化して理解する
今回は、回帰分析の意味を理解することを目標とし、統計学的な説明とグラフ上の意味を考えていきます。
回帰分析
XとYの間に相関関係と因果関係が想定されるとき、Xの値からYを説明した値(
)を求める回帰式(予測式)を推定する統計的手法のこと。
例えば、「牛楽」焼肉チェーン店の新規出店候補について考えると、道路の交通量(X)と店の売上高(Y)の間には、高い相関関係(r=0.682)と因果関係が存在します。このとき、交通量(X)から売上高を説明した値(
)を求める回帰式(予測式)を推定するのが回帰分析です。回帰式を推定するとは、式のパラメータを推定して回帰式を決定することです。
回帰式:=aX+b Y =aX+b+e (e=Y−
)
:被説明変数(従属変数)…「売上高」(予測値) X :説明変数(独立変数)…「交通量」 a :回帰係数…「既存店舗サンプルデータから推定したa=5.5」 b :Y切片…「既存店舗サンプルデータから推定したb=960」 e :説明の誤差(残差)
定 義
「説明の誤差(e)の2乗を全サンプルについて合計した値が、最小になるようにパラメータa,bを決定する回帰分析手法」
推定過程
説明誤差の2乗の合計をfとおく。
f=Σe2
=Σ{Y−(aX+b)}2fを最小にするような、パラメータ(a,b)を求める
a,bで偏微分して、0とおけば、
∂f/∂a=ΣY−aΣX−nb=0
∂f/∂b=ΣXY−aΣX2−bΣX=0この連立方程式を解けば、a,bが求められる。
a=(ΣXY−nXmYm)/(ΣX2−nXm2)
b=Ym−aXm
グラフでの理解
最小2乗法による回帰直線の推定
→スライド「回帰直線の推定」
回帰式のパラメータ(a,b)のセットによって、回帰式が決まり回帰直線を描くことが出来ます。パラメータ(a,b)のセットは無数にあるので、色々な回帰直線の候補(ピンク色)を引くことができます。この候補直線を少しずつずらして、「Σe2→最小」となるような直線が最小2乗法によって推定された回帰直線です。その傾きはaの推定値であり、切片はbの推定値です。
EXCELの分析ツールを利用した分析結果を例に、その解釈と注意すべき点を指摘します。
回帰統計 意味 重相関 R 0.682 相関係数(r): Yと の相関係数
重決定 R2 0.465 決定係数(R2): 回帰式のあてはまりの程度を表す(0≦R2≦1) 補正 R2 0.424 補正決定係数: 自由度を調整した決定係数。 標準誤差 35.54 説明誤差の標準偏差 観測数 15 推定に用いたサンプル数 分散分析表省略
係数 標準誤差 t P-値 下限 95% 上限 95% 切片 960.03 309.5 3.102 0.008 291.5 1629 X 5.50 1.63 3.363 0.005 1.97 9.03 ここでは、既に営業している15店のサンプルを用いて、回帰式のパラメータa(Xの係数),b(切片)の推定を行っています。「真の」回帰式は「神のみぞ知る」ものであり、分析結果はたまたま出店している15店をサンプルとした推定に過ぎません。
よって、回帰分析で推定されたパラメータも、完全唯一の推定値ではなく、推定値の期待値(平均値)に過ぎないことになります。
- 係数:パラメータの期待値
- 標準誤差:パラメータの標準偏差
「真の」回帰係数aは、期待値が5.5であり、標準誤差1.63のt分布に従った確率分布で表されます。
- t:「真の」パラメータ=0と仮定したときのt値
- p値:「真の」パラメータ=・≦0である確率
この係数が有意ではない確率
この変数を回帰式に組み入れる意味のない確率t検定によって、回帰係数=0の帰無仮説を検定すると、t値=3.363であり、その確率は0.5%となります。このことから、帰無仮説「回帰係数は0である」は、95%の信頼度で棄却され、「回帰係数は有意である(プラスの係数として解釈できる)」と検定されます。
回帰係数(a)の分布
もし、「回帰係数が0である」可能性が高い場合には、その変数を回帰分析に用いる意味が無いことになります。したがって、意味のある回帰分析であるのかを判定するためには、EXCELの出力では、回帰係数のP-値に注目することが重要であると言えます。
= 5.5 * X + 960
(被説明変数):焼肉チェーン店の売上高の予測値(万円/月)
X (説明変数):交通量(100台/日)回帰係数(a=5.5)
Xが1増加するとき、Yの増加に与える影響を示します。
例では、「交通量が100台多い道路を選択すれば、そこに出店する店舗の売上高は55,000円多いことが予測される」ということを示します。
切片(b=960)
Xが0のとき、
の値を示します。
例では、「交通量が0の道路では、売上高は960万円が予測される」ことを示します。ホントかな?
回帰分析を解釈し、データの予測を行う場合に、注意すべき点があります。
- データの予測に適用できる範囲
- データの予測に適用できる因果関係
回帰分析によって推定された回帰式は、すべての予測に適用できる「神の方程式」ではありません。分析に適切なデータ範囲のみで有効な、一次回帰式の数量的予測に過ぎないことを忘れてはいけないのです。
例えば、焼肉チェーン店の新規店舗候補Cの交通量572(百台/日)は、パラメータ推定に用いたサンプルデータ既存15店舗の範囲(77〜286)を大きく外れています。このような場合、回帰式をC候補の売上高予測に用いることが、必ずしも適切であるとは言えません。回帰式を推定したサンプル範囲以外では、問題の構造が変わる(パラメータの値が変わる、モデルが異なる)可能性があるからです。
→スライド「道は続く」
回帰分析を散布図、回帰直線で理解する
dat09.xls は、靴を製造している工場における、過去17四半期の靴の生産量と製造費用とを調査したデータです。このサンプルデータをもとに、生産量と製造費用との関係を分析し、次の四半期に計画されている生産量から製造費用を予測してみましょう。
生産量と製造費用の分析
1.過去17四半期のサンプルで回帰分析を行い、回帰式を推定する
[ツール]→[分析ツール]→[回帰分析]
製造費用=a・生産量+b2.予測値、予測誤差(残差)を計算する
- サンプルの予測値、予測誤差
- 1997年第4四半期、1998年第1四半期の製造費用の予測値
3.実績値(Y)を点表示、回帰式(
)を線表示で散布図を作成する
実習例
締切:6/12(木)16:00
今回の実習ワークシートを完成させなさい。
また、その分析結果を読みとって、以下の問いに答えなさい。
- Q1.この回帰式を数式で表しなさい。変数の定義を示すこと
- Q2.生産量が1単位増加したときの製造費用の増加分を特に「限界費用」という。この靴工場でのダースあたりの限界費用はいくらか。
- Q3.生産量が0の時、製造費用はいくらと推定されるか。また、なぜそう言えるのか、簡単に説明しなさい。
- Q4.この回帰分析は、焼肉チェーン店の分析と比べて、回帰式のあてはまりが良いと言えるか。理由も一緒に簡単に説明しなさい。
- 保存するファイル名は、dat09ユーザID(例:dat09ue025555)とする
- ファイルをメールに添付する
宛先: kawaji@cc.seikei.ac.jp 表題: dat09 ue025555 課題9 成蹊太郎 Q1. Y^ = ○○○ X + ○○○ Y^:○○○○(単位) X :○○○○(単位) Q2. 限界費用=○○○(万円/ダース) Q3. ○○○○○○○○○○○○○○○○○○○○○○○○ ○○○○○○○○○○○○○○○○○○○○○○○○○ ○○○○○○○○○○○○○○○○ Q4. ○○○○○○○○○○○○○○○○○○○○○○○○ ○○○○○○○○○○○○○○○○○○○○○○○○○ ○○○○○○○○○○○○○○○○