東京図書「すぐわかる統計処理の選び方」をRで解析〜タイプ6データ処理

データ型6
対応はあるが異なる2つの変数を持つデータ型の統計処理方法。 統計処理をチャート式で導き出すことができる逆引き辞書「すぐわかる統計処理の選び方」では、SPSSでの解析を行なっているのでRで解析していきます。

解析処理方法。

方法1.グラフ化
方法2.基礎統計量
方法3.単回帰分析
方法4.主成分分析
方法5.ROC曲線
方法6.曲線推定

このパターンで使われるデータは2つ。
6つの河川の水質汚濁の状況を2つの指標で示した調査結果。
もう一つが、大手企業の宣伝広告費と売上高の調査結果。

前者(例6−1)のデータはこちら:ex61.csv(数字以外、処理しやすいように改編しています)
後者(例6−2)のデータはこちら:ex62.csv(数字以外、処理しやすいように改編しています)

方法1.グラフ化
グラフ化(視覚化)をして統計量の全体像を把握していきます。
書籍同様、散布図を見ていきます。
縦軸の結果変数に対して、横軸の目的変数としてグラフ化。

例6−1の散布図

> plot (BOD ~ DO, data=ex61 )

ex61
右下がりの散布。これは負の相関関係にあります。 逆相関とは、片方が増えれば、片方が減る関係ということ。
「負」とかいうと「良くない」というイメージですが、ちゃんと関係性があるという理解です。文系出身者はこういう表現が結構プチ障害になります。

例6−2の散布図
> plot ( Sales ~ Ad.Exp, data=ex62 )

ex62
右上がりの散布。これは正の相関関係にあります。
正の相関とは、片方が増えれば、片方も増える関係ということ。

ついでに、plot()関数のパラメータをメモ。
◯plot ( データ名 ) # 全変数間の散布図を作図する
◯plot (データ名[ 1 : 4 ] ) # 変数1 ~ 4の間の散布図を作図する
◯plot ( 変数名m ~ 変数名n, data=データ名) # 変数名m X 変数名n の散布図を作図する
◯plot( データ名 [,1], データ名 [,3] ) #第1変数[,1]と第3変数[,3]の散布図を作図する

方法2.基礎統計量

◯最小値 ◯最大値 ◯標本平均 ◯標本標準偏差 ◯標本分散 これらを求めていきます。

summary()関数・・・最小値/最大値/標本平均
var()関数・・・・・標本標準偏差
sd()関数・・・・・標本分散

例6−1
①最小値/最大値/標本平均
> summary(ex61) River DO BO
EnoguchiRiv:1
Min.:3.800
Min. :0.800
Fnairi Riv :1
1st Qu.:5.700
1st Qu.:1.000
Kagami Riv :1
Median :7.650
Median :1.400
KokubuRiv :1
Mean :7.050
Mean:2.233 KyuumaRiv:1
3rd Qu.:8.475
3rd Qu.:3.300
Shimoda Riv:1 Max.:9.400
Max. :5.000

②標本標準偏差 ※下記のまま実行すると河川名の列でN/Aが出ます。
変数「DO」と「BOD」だけ見れば良いので無視します。
ややこしいのでエラー箇所は削除しています。
> var(ex61)
DO BOD
DO 4.607 -3.684000
BOD -3.684 3.134667

③標本分散
※下記のまま実行すると河川名の列でN/Aが出ます。
変数「DO」と「BOD」だけ見れば良いので無視します。
ややこしいのでエラー箇所は削除しています。
> sd(ex61) DO BOD 2.146392 1.770499

例6−2
①最小値/最大値/標本平均
> summary(ex62) > summary(ex62) Ad.Exp Sales
Min. : 61.0 Min. : 158.0 1st Qu.:112.5 1st Qu.: 376.2 Median :187.5
Median : 513.0 Mean :220.9 Mean : 572.8 3rd Qu.:330.2 3rd Qu.:
785.5 Max. :428.0 Max. :1037.0

②標本標準偏差 > var(ex62) Ad.Exp Sales
Ad.Exp 17994.77 38590.20 Sales 38590.20 92632.84

③標本分散 >
sd(ex62) Ad.Exp Sales 134.1446 304.3564

方法3.単回帰分析
lm()関数を使います。 切片と係数の算出していきます。
単回帰分析として適している、例6−2で実行していきます。
> lm(Sales ~ Ad.Exp, data=ex62)
Call: lm(formula = Sales ~ Ad.Exp, data = ex62) Coefficients:
(Intercept) Ad.Exp 99.075 2.145

切片が、99.075、係数が2.145ということがわかります。
さらに当てはまりの良さを調べるために、回帰分析のサマリを表示させます。

> summary(lm(Sales ~ Ad.Exp,data = ex62)) Call: lm(formula = Sales ~ Ad.Exp, data = ex62)
Residuals: Min 1Q Median 3Q Max -207.31 -39.80 -3.34 73.30 127.30
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)
99.0748 66.7708 1.484 0.176 Ad.Exp 2.1445 0.2619 8.188 3.69e-05 ***
— Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1
Residual standard error: 105.4 on 8 degrees of freedom Multiple
R-squared: 0.8934, Adjusted R-squared: 0.8801 F-statistic: 67.04 on
1 and 8 DF, p-value: 3.693e-05

ここで「Multiple R-squared」の値をみてみると、「0.8934」。
残差0の時は、この値が1となるので、1に近い値であることからこの決定係数は当てはまりが良いと考えます。

次に分散分析表で当てはまりの良さを調べます。
この分散分析表による仮説は以下。 仮説H0:求めた回帰直線は予測に約に立たない。
この仮説の正否を調べるために棄却域Rを以下に定める。 F0 ≧ F(1,N-2;α) この式が成り立つ場合、仮説H0は棄却される。
つまり、「役に立つ」ということ。 ここで先ほど出力した回帰分析のサマリを思い出す。 F-statistic: 67.04 on 1 and 8 DF, p-value: 3.693e-05 「df」が「1 and8」。検定統計量(F0)が「67.04」ということで、F分布表から「F(1,8;0.05)」は「5.32」なので、以下の式が成り立つ。 67.04 ≧ F(1,N-2;α)=5.32

よって、仮説H0「求めた回帰直線は予測に約に立たない。」が棄却され、「回帰分析は役に立つ」ことが証明されました。

方法4.主成分分析
負の相関関係にある要素を持つ例6−1のようなデータに有効な解析手法が、主成分分析。
本書ではいきなり、第一主成分のグラフ表現が。
早速、Rでグラフ化していきます。

・・・と思っていましたが、本書に通りにデータが出ない、出ない。
主成分分析は割愛させていただき、克服出来次第掲載していきます。

方法5.ROC曲線
方法6.曲線推定
これらについては次回。

Leave a Reply

%d人のブロガーが「いいね」をつけました。