1992年の億万長者を解析〜データ指向統計データベースより

DoDStat@d データ指向統計データベース」という学習用(?)実データがある。
これはすごく便利。
Rで統計を学習していると手頃なデータが欲しくなるわけですが、なかなか手持ちではないもんです。私はアクセス分析を主にしているわけなんですが、統計データの解析を絡めた解析をおこなう必要もありますので一般データの解析は勉強になります。

ということで、同データベースにある「1992年の億万長者」データを使って分析をおこなっていきます。

まずはこのデータの説明。

このデータには、総資産額、年齢、地域の3要素があります。
総資産におけるそのほかの要素の関係性を調べていきます。

まずは分散分析から。

変数「bill」にこのデータを入れていきます。
Rコマンダーを使います。

続いて、aov()関数とanova()関数を使って分散分析を行います。

> aov.set <- aov(bill[,1]~bill[,2]+bill[,3]) > anova(aov.set)
Analysis of Variance Table

Response: bill[, 1]
Df Sum Sq Mean Sq F value Pr(>F)
bill[, 2] 1 1.68 1.6804 0.1496 0.6993
bill[, 3] 4 79.03 19.7573 1.7584 0.1383
Residuals 219 2460.72 11.2362

ふーん、いずれの変数もF値が0.05以下ではないので有意ではない。
よって、年齢や地域に富は関係ありません、てこと。んなことぁ分かってるよな。

ひとまず、関連性を見ていく必要はある。
ということで、数値化されているwealthとageでBartlett検定をおこない、分散が均一か否かを確認します。独立多群や関連多群で分散分析をおこなう際には、分散が均一であることが条件となるため。分散が均一でない場合、Kruskal-Wallis検定やFriedman検定を行う。

> bartlett.test(wealth~region)

Bartlett test of homogeneity of variances

data: wealth by region
Bartlett’s K-squared = 9.1111, df = 4, p-value = 0.05838

P値が0.05以上であるため棄却域に入っているが、誤差範囲と考える。

一方変数「age」で試す。

> bartlett.test(wealth~age)
以下にエラー bartlett.test.default(c(49L, 48L, 47L, 46L, 46L, 45L, 44L, 43L, :
各グループに少なくとも 2 つの観測値がなければなりません

エラーを吐く。変数「age」は二値化されたデータはではないので、検定に向かない。

つまり、変数「wealth」と変数「region」は非常に適したサンプルと考えられるということがわかる。変数「age」は関連性が今のところ見当たらない。

次回はグラフ化を試してみる。

Leave a Reply

%d人のブロガーが「いいね」をつけました。