東京図書「すぐわかる統計処理の選び方」をRで解析〜タイプ1データ処理

統計解析をひと通り学んで悩むことが

「で、今目の前にあるデータをどう処理したら良いの?」

だと思いますが、この書籍「すぐわかる統計処理の選び方」ではこの処理方法をチャート式で導き出すことができるまさに逆引き辞書。

この書籍の難点がSPSSでの処理を想定している点。

この書籍内の処理をRでやってみようと思います。

データ型1
 1つの変数についてのデータ処理。変数1に対してデータが一つのデータ処理方法としては、まずはこのデータが解析するのに値する母集団なのかを探る点が重要となります。

解析処理の方法。

方法1.グラフ化
方法2.基礎統計量
方法3.度数分布表とヒストグラム
方法4.母平均の区間推定
方法5.母平均の検定

参考データ:EX1-1.csv

このデータタイプは以下のようになっています。

an hourly wage
850
1000
1100
950
1200
900
1050
800

書籍では、一列目に「No」列がありますが、Rで処理するために不必要な列は省いています。

インポート方法ですが、私はRコマンダーを利用しています。
RコマンダーはRをグラフィックインターフェースで使用することができる超便利なライブラリー。
Rコマンダーを使って処理を進めても良いですが、スクリプト言語を使えるようにした方が後々スピーディな処理に役立つだろうと想定して処理はなるべくRを使っていくことにします。

方法1.グラフ化
このデータは変数が1つしかないこともあり、視覚化する必要性はあまりありませんが、バラつきを理解していくためにはどんなデータも視覚化して全体像を掴む必要があると思います。

さきほどインポートしたデータを変数「ex11」に格納しているので、

plot(ex11)

でグラフを表示させます。
で結果は以下。
スクリーンショット 2013-03-30 15.57.53
このグラフから学び取れることは、1200というデータはほかのデータと比べて高い数値であることくらいか。

方法2.基礎統計量
基礎統計量とは、SPSSでいうところの以下。
◯最小値
◯最大値
◯標本平均
◯標本標準偏差
◯標本分散

Rにはsummary()という関数があり、基礎統計量を出すことができます。

> summary(ex11)
an.hourly.wage
Min. : 800.0
1st Qu.: 887.5
Median : 975.0
Mean : 981.2
3rd Qu.:1062.5
Max. :1200.0

しかしこれだと、標準偏差と分散がわからないので、以下を実行します。

> #分散を求める
> var(ex11)
an.hourly.wage
an.hourly.wage 17812.5
> #標準偏差を求める
> sd(ex11)
an.hourly.wage
133.4635

分散とは、平均値を中心にしてデータがどの程度ばらついているかを示す統計量。
標準偏差とは、標本分散の平方根。標本標準偏差=標本分散^2。

方法3.度数分布表とヒストグラム
あくまでこの時点ではデータの全体像を掴む程度なので、「大体」の認識ができれば良いでしょう。
スクリーンショット 2013-03-30 16.01.47

方法4.母平均の区間推定
母平均μの区間推定をおこなっていきます。
「信頼係数95%で母平均μの値は◯◯から△△まで」というのを定義します。
これはT検定をおこないます。

> t.test(ex11)

One Sample t-test

data: ex11
t = 20.7952, df = 7, p-value = 1.494e-07
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
869.6717 1092.8283
sample estimates:
mean of x
981.25

下側信頼限界は、869.6717。
上側信頼限界は、1092.8283。
この間に値が入れば、それは信頼できるデータ、といえるということ。

方法5.母平均の検定
実はこのデータ「ウェイトレスの時給」を示しています。
そこでここでは、以下の設問を想定します。

「今年のウェイトレスの時給は、去年の時給と異なるのでは?」

そこで、仮説検定を下記の3つの手順で行います。

手順1 仮説H0と対立仮説H1をたてる
手順2 検定統計量Tを計算する
手順3 検定統計量Tが棄却域Rに含まれると仮説0を棄てる

ここで「去年のウェイトレスの平均時給は約900円だった。ところが今年のウェイトレスの時給はどうも去年と異なっているようだ」とする。
このようなとき
 母集団=今年のすべてのウェイトレスの時給
 仮説H0=今年のすべてのウェイトレスの平均時給は900円
として、この母集団から標本をランダムに取り出す。

この仮説を実証するために母平均900で再度t検定。
muに900円を代入する。

> t.test(ex11,mu=900)

One Sample t-test

data: ex11
t = 1.7219, df = 7, p-value = 0.1288
alternative hypothesis: true mean is not equal to 900
95 percent confidence interval:
869.6717 1092.8283
sample estimates:
mean of x
981.25

p-valueが0.1288。
有意水準を5%として比較。
0.1288 > 0.05
このことにより、なかなかあり得ない5%の領域(棄却領域)に検定量があることがわかり、仮説は棄却。
結果、

「仮説H0=今年のすべてのウェイトレスの平均時給は900円」は間違った仮説となり、
「去年のウェイトレスの平均時給は約900円だった。ところが今年のウェイトレスの時給はどうも去年と異なっているようだ」とはいえない。

ということが証明されました。

Leave a Reply

%d人のブロガーが「いいね」をつけました。