重回帰分析
残された日数は10日程度だろうか。これを理解し分析を試みる。さらには先行研究も探しあてなければならない。模索をしながらここまできたが思うところは“人生の宿題”だ。マーケティングで必要なことから、この手の分析はずいぶんとかじっているし実践もしてきた。あたりまえのことだが、きちんと学んでいないと漏れがある。この夏はやり残しの宿題をしっかりと学ぶことにする。以下暗記用はメモとなる。早々にプレゼンレベルまでアップさせなくては….
重回帰分析の目的 「予測」と「分析」
Yに与えている要因として複数のxがある。しかしこれらの要因がすべてyに影響を与えているとは限りない。どの要因が本当にyに影響を与えているのかを検証する必要がある。絞り込んだ説明変数xの中でそれぞれが、被説明変数yに与えている影響度を比較することが要因分析につながる。
y = 結果となるような説明変数
x=結果となるような項目が被説明変数
重回帰分析の手順
① 散布図を作り全ての説明変数xⅰ~x∞と被説明変数のとの関係を視覚的に確認する
② 相関関係rを出して判定し説明変数同士で極端に相関に強いものが無いかを確認する
③ すべての説明変数を用いて回帰分析を実行する
④ 危険率「P-値」の高いものから順に説明変数を削り最後の1つになるまで回帰分析を
繰り返す
⑤ 「数値予測」説明変数選択基準Ruが最大のパータンから最適回帰モデルを導き出す
⑥ 「要因分析」最適な回帰分析の結果から「t-値」被説明変数への影響度を比較する
相関関係判定式
r*r= 4
(データ数+2)
相関関係r値はあくまでも関連度の強さを表している指標にすぎない。本当に相関があるのかどうかは判定式を用いて件数する必要がある
重相関R : 式の当てはまりのよさを示す。1にちかいほどよい
0 ≦ 重相関数(r) ≦ 1
「重相関R」は0と1の間に値をとり、1に近いほど重回帰式としてよい式であり0に近いほど良くない式である。
相対誤差(%) 実測値-予測値/実測値×100
危険率をもとに真の要因を絞り込む
取り込む精度が低くなる説明変数は取り除く必要がある。指標となるのが「P-値」である。P値は危険率ともよばれこの数値が高いほど説明変数を取り込むと誤差が大きくなる可能性が高い。
P値× 100 = 危険%
仮にP値が0.55であった場合55%の誤差が生じる危険がある。
説明変数選択基準 Ru 最適モデルを導き出す
Ruは説明変数を幾つか取り入れ、どの式が最適なのかを判断する基準
例
Ru = 1-(1-R^)× n+k+1
n-k-1
R = 重相関Rの値
n= データ数(観測数)
k= 説明変数の数(回帰の自由度)
要因分析 = t値の絶対値の大きさ