ウェブディレクターのための統計解析 これまでの学習法まとめ

2週間あまり高速で統計解析の基礎を学習しました。
大分外郭が見えてきたのでここまでの学習方法と今後の学習法についてまとめてみようと思います。

これまでの学習。

1.ブログ「色々と考えてみる」の「文系のための「多次元データ解析」」でRで行列学習+統計解析基礎学習
2.「統計学が最強の学問である」読書とまとめ
3.「すぐわかる統計処理の選び方」読書

1.ブログ「色々と考えてみる」の「文系のための「多次元データ解析」」でRで行列学習+統計解析基礎学習

これについては、当ブログでも紹介してきた通り。
・「ブログ「色々と考えてみる」の「文系のための「多次元データ解析」」を読み解く(1)」では、行列の基本とRでの計算方法をまとめていきました。

・「ブログ「色々と考えてみる」の「文系のための「多次元データ解析」」を読み解く(2)」では、行列の足し算と引き算の方法をまとめています。Rによるグラフの描き方もちょっと。ここまではスイスイいける感じですね。

・「ブログ「色々と考えてみる」の「文系のための「多次元データ解析」」を読み解く(3)」では、掛け算をさらっとやった後、行列による四則演算のキモ「割り算」に入りました。正方行列からの逆行列化の流れは「逆回転ひねり」ぽいニュアンスでイメージの限界を超えてます。論理的に理解していく必要がありました。逆行列化するために無理矢理正方行列化するので後々調整していく必要がある、的理解をしました。

・「ブログ「色々と考えてみる」の「文系のための「多次元データ解析」」を読み解く(4)」では、引き続き割り算を学びました。割り算の大詰め「疑逆行列」について学びました。Rによる特異値分解の方法も学びました。個人的には、行列を意味ある分類に仕分ける疑逆行列に萌えました。

ここまでは、統計解析のアウトプット方法について学びました。

しかしこれでは、手足だけ立派になって頭が入ってきていません。
ブログ「色々と考えてみる」では、これらの基礎理論が入っているという前提で計算方法の解説がされているので、ここらで理論、統計処理をおこなうための頭の使い方、について学んでいく必要があります。

2.「統計学が最強の学問である」読書とまとめ

ブログ「色々と考えてみる」内の前提条件である、統計学の知識の基本はこの本を読んでいたことで相当役立ちました。つまり、統計学のできることの全体像をこの書籍で学んでいたことが統計解析の理解を促進しているのだと思います。同書籍内の回帰分析に関わる内容(書籍後半部)は、読書中は相当キツかった記憶があります。字面を追うだけで一苦労しました。Rでのアウトプット方法をもう少し詰めていき、いくつか実際の解析をした上で再度読み返すと理解が深まると考えています。
そういう意味で統計解析を始めようと考えているウェブディレクターの方々には入門書として購入されることを強くお薦めしておきます。
本書籍には辛辣な批評もありますが、ほとんどの初学者にとってはほぼ関係ない、と言って良いと思います。
初学者にとってのこの書籍の読み方は、「統計学はやっぱ最強だな!」ではなく、「統計学は色々な分野で応用できる便利な学問なんだな!」で良いと思います。統計学の過去から現在に至るまでの歴史や統計学のとりまく環境まで、たった数百ページでざっくりまとめている書籍は他にはない(?)と思います。
学習を進めて、この書籍の批評ができるレベルになったらそれは相当なスキルが身についた、という目安なのではないでしょうか。

3.「すぐわかる統計処理の選び方」読書

この書籍は天啓と言っても良いくらいの発掘図書です。
この書籍についてもこのブログでまとめていきますが、いわゆる「使える系」書籍です。

統計解析の学習を進めていくと、こんな思いに駆られないでしょうか?

「私は一体何百種類の解析方法覚えなければいけないのだろうか?」
「Rでこの解析をできるようになったけど、いつか忘れる。気がする」
「私が統計処理したいこのデータ型はどう処理するんだ」

つまり、統計処理の逆引き辞典的書籍が、この「すぐわかる統計処理の選び方」という書籍。

もちろん、この書籍で紹介されている検定方法や解析方法は一例に過ぎない。
統計解析を進めていく上で、私がポイントだと考えていることの一つは、一連の解析処理方法を理解し使えること。
要するに、あるデータ型を解析すると決まったら、ざっくりと解析処理完了のゴールが見えるようにすること。

この書籍では、フローチャート方式で、「◯◯◯というデータ型の場合は、◯◯◯という処理方法をおこなうのだ」ということが書かれています。特に使えるのが「付録」としてついているフローチャート。
これについては速攻でデータ化して手元に持てるようにしました。
これは統計処理をおこなう上での地図として頭に叩きこもうと思います。
この地図にどんどん関連データを書き足し、自分の専門分野に特化した(または、入手でき得るデータ型に沿った)地図(フローチャート)にしていけば良いと思います。
素晴らしい書籍です。著者に感謝します。

フローチャートだけでなく、説明もかなり丁寧です。
データ型別の解説だからなのかもしれませんが、とにかく繰り返し同じことを説明してくれます。
処理方法について特に繰り返して「型」を示してくれています。これは本当にありがたいです。
ただ、検定部分で有意の処理の仕方が後半省かれていることと、処理をSPSSを使っている点で迷うことがありました。2回目に読んでみるときちんと解説しているので、1回目読む際には順を追って読むことを薦めます。
SPSSについては、処理結果だけ示されているので、これを脳内でRに変換するか、良い機会なので、Rで処理し直すしてRの学習もかねて理解していく、という方法も良いかと思います。この方法はこのブログでもやっていこうと考えています。
1週間程度で読むことができるので、初学者にはお薦めできます。

ざっとこれまでの学習方法についてまとめてみましたが、いかがでしょうか?

理論 ⇔ アウトプット

早期に未知の分野を学ぶためには、この往復が良いのかな、と思います。
理論を学びながら、どうやるのか、について同時に考えていくことで知識が深まる気がします。
統計学は本当に面白い学問なので、この基礎学習フェーズを修了して、政府関連の統計データを漁ったり、一見関連のなさそうなデータ同士をぶつけて解析してみたり、妄想シュミレーションして勝手危機管理したり、してみてください(こんなことしたいのは私だけか…)。

加えて個人的には、MITが開発したプログラマー養成学習ソフト「Processing」を使ってアート作品を作っているので、統計処理したデータを音変換したり、動画変換して楽しめるかな、と思っています。この辺りのお話はいつかこのブログでも書かせていただきます。

統計学を学ぶと幸せになれる。

私は、この仮説を棄却しないように学習を進めていきます。

あなたはどうですか?

Leave a Reply

%d人のブロガーが「いいね」をつけました。