統計解析基礎まとめ

統計解析を勉強中。
データみたいな無機質なものをビジュアライジングしていくことのプロセスからアウトプットまでしていくことが昔から好きで、仕事の流れとも相まって必要性が高まっているためです。
統計解析の基礎を学ぶと「知っている」と「知らない」では全然効率が違うな、ということがわかってきます。
マネージャーがそれを知らないことで部下に無駄な時間を強いてしまうということ。

現時点では、RやPythonの必要性を感じていないくらい無知な状況です。この状況を打開するために無知から知にし、統計解析分野からデータサイエンス分野に移行していこうと思います。
まずは統計解析についてまとめてみたい。

1.データの種類
 (1)数量データ・・・単位があり、数えられるもの(定量的)
 (2)カテゴリデータ・・・比べることができない(定性的)

2.4つのS
 データを正しい手順で効率よく集め、分析していくための4つの注意点のこと。
 (1)採集・・・必要なデータを正しい手順で効率よく集めることが大切
 (2)視覚化・・・関数や分析ツールを使う前に、グラフや表を作成して視覚的にデータを把握する
          ⇒極端に外れたデータがないかどうかを確認
          ⇒データ分析をおこなう前に、仮説を立てる
 (3)層別・・・様々な角度からデータをみていく
 (4)相関・・・相関関係と因果関係は違う。データ分析をおこなう上で狂いが生じるので検証が必要

3.度数分布表
 データ区間の各区間に入る数をまとめた表。ばらつき具合を確認し、データ全体の分布を把握するために用いる。
 【度数分布表に必要な数値】 []内は関数名
 (1)データの個数 [COUNT]
 (2)最大値、最小値 [MAX][MIN]
 (3)範囲・・・[MAX] – [MIN]
 (4)区間の数
    ヒストグラムのグラフの棒の数
    平方根を用いる。データの個数のべき乗。「(データの個数)^0.5」
    「スタージェスの公式」などでももとまる。
 (5)区間の幅
    1つの棒グラフで、どの値からどの値までを範囲とするかを決める幅のこと
    「(3)範囲 / 区間の数」

  ◯はじめの値のもとめ方
   第1区間の下側境界値 = 最小値 – 測定単位 / 2

4.代表値 []内は関数名
 データの中心をつかむための値。
 平均値・・・極端な数値の大小に左右される [AVERAGE]
 中央値・・・極端な数値の影響が少ない [MEDIAN]
 最頻値・・・出現率が最大の値 [MODE.SNGL]
・分散・標準偏差
 データのばらつきをみるもの。
 データのばらつきとは、平均値との乖離状況。
 ◯分散・標準偏差
  どちらも数値でデータのばらつきを示すもの
 ◯標準偏差
  抽出したデータのばらつきを示し、数値が大きいほどデータのばらつきが大きいことになる。
 ◯分散=標準偏差^2

5.解析の進め方
 手順(1)分散・標準偏差を求めるためにデータ収集する
 手順(2)平均値を求める
 手順(3)分散を求める
      無限母集団・・・標本数が無限の集団
      有限母集団・・・標本数が有限の集団

      ◯母分散
       母集団の分散で全てのデータのバラつきを把握する
       母集団の平均はμとなる。
      ◯標本分散 [VAR.P]
       いくつかのデータを全体の中から標本として選んで、そのばらつきを把握する
      ◯不偏分散 [VAR.S]
       母分散を推定するにはデータ数から1を引いた不偏分散を使用。
       標本分散より値が小さくなるので、分数の値が標本分散より大きくなる。

      ⇒母分散を推測するためには、不偏分散を用いる。標本分散では分散が小さく把握しずらいため。
 手順(4)標準偏差 [STDEV.S]
      標準偏差=分散^0.5
      値は「±」でもとまる。

 手順(5)まとめ
      1>平均値をもとめる [AVERAGE] [MEDIAN] [MODE.SNGL]
      2>分散をもとめる [VAR.S]
      3>標準偏差をもとめる [STDEV.S]

6.基本統計量
 より多くの情報を数値的にとらえデータの特長を探る
 手順(1)基本統計量を求めるためにデータを収集する
 手順(2)正規分布を把握する
      平均値を中心として、平均値より小さい範囲も大きい範囲も左右対称にばらつきがある分布
 手順(3)基本統計量を求める
      平均 [AVERAGE]
      標準誤差 [STDEV] [SQRT]
      中央値 [MEDIAN]
      最頻値 [MODE.SNGL]
      標準偏差 [STDEV.S] [SQRT]
      分散 [VAR.S]
      尖度 [KURT]
      歪度 [SKEW]
      範囲 [MAX]-[MIN]
      最小 [MIN]
      最大 [MAX]
      合計 [SUM]
      標本数 [COUNT]
 手順(4)基本統計量の結果から特徴をとらえる
      ◯データが正規分布に従っているか
       正規分布となっていれば確率で表すことができる
      ◯ばらつきの大きさをみる
       外れ値の可能性やばらつきの原因を探るヒントになる。

7.そのほか
 そのほかの関連計算式とか用語など。

 (1)相関係数 [CORREL] ※変数が2つの場合にのみ使える関数。3つ以上の変数は分析ツールを使用。
  データ同士を比較して関係性の度合い。
  -1 < 0 < 1 の範囲の数値。   ◯相関判定の目安      〜 0.3未満 ほぼ無相関    0.3 〜 0.5未満 非常に弱い相関    0.5 〜 0.5未満 相関がある    0.7 〜 0.5未満 強い相関    0.9 以上     非常に強い相関  (2)単回帰分析     y = ax +b     回帰係数 a / 切片 b  (3)重回帰分析     y = a + b1x1 + b2x2 + b3x3 + b4x4 + … + bkxk     切片 a / 係数 b  (4)変数減少     回帰分析の出力結果から以下を計算。     説明変数ごとの影響度を求め、どの説明変数を採用したときが最適なモデルとなるかの調査。     tの値が小さい説明変数を削除し、回帰分析を続ける。     求めた回帰式の中で、説明変数選択基準Ruが最大になる説明変数の組み合わせを最適な回帰モデルとする。     Ru = 1-(1-重相関R^2)*(観測数+回帰+1)/(観測数-回帰-1)    [そのほかの選択基準]     ・自由度調整済決定係数     ・AIC(赤池の情報量基準;Akaike’s Information Criterion)     ・Rh(芳賀・竹内・奥野の基準)     ・Cp(Mallowsの基準)  (5)コンジョイント分析     直交表。効率よくマーケティング・リサーチする手段。     ※フォーマットは今度作ろう

Leave a Reply

%d人のブロガーが「いいね」をつけました。