西内啓一「統計学が最強の学問である」メモ

これから統計学を学ぼうとするにはうってつけの書籍。
タイトルからして希望を感じます。
金融系での活用が特に進んだ分野である統計学ですが、最近のトレンドであるITに関連して書かれているので入りやすいです。
まだ最後まで読んでいないので途中のメモになりますが、特に役立ったことを備忘。


1.「専門用語のざっくりとした解説」
①データマイニング
すでにまたっている大量データから、うまく価値のありそうな情報あるいは仮説を引き出すこと。またはそのための手法。細かい精度よりも速度が重視され、比較的単純な計算過程を繰り返すだけで成立する手法が好まれやすい。スーパーのPOSデータをデータマイニングした結果、おむつとビールが同時に買われている割がいが案外高かった、みたいなケースでよく紹介される。

②テキストマイニング
人間読むために書かれた(もしくは聞くために話された)フリーテキストを分析するやり方。言語学の手法が発展してビジネスにも応用されるようになった。形態素解析という文章を単語ごとにぶつ切りにするステップを経て、どんな単語が登場しているか、単語同士の関係性はどうか、みたいな分析がされる。

③Exadata
長年データベース業界でブイブイ言わせていたオラクル社が多額の買収劇を経て完成させたビッグデータ関連主力商品。ハード・ソフトの両面からうまいことデータを分散させて高速処理することに最適化させている。性能もすごいが値段もすごい。

④Greenplum
Exadataの競合商品オープンソース技術をうまく使っているためExadataよりは安上がりにスケールアップさせて巨大データが高速処理できる。

⑤分散処理
処理しきれない大量データでも100台のサーバに処理を振り分けて最後にまとめれば100倍速いはず、みたいな考え方。データの構造やアルゴリズム次第で「うまく振り分けて最後にまとめる」手間が異なるのが難しいところ。

⑥インメモリデータベース
データを読みだしたり書き込んだりする速度を高速化するために、ハードディスクやSSDではなくメモリ(RAM)上にデータを記録する。当然、電源が切れるとデータは消えるため、SSDとRAMディスクを組み合わせて弱点を補い合わせたりするという試みもある。余談だがインメモリと言う人とオンメモリという言う人がいる。

⑦Hadoop
データを分散処理するためのオープンソースのJAVAフレームワーク。分散処理の「うまいことする」部分を担っている。最近聞く大規模なデータの分散処理をしようとするソフトウェアのほとんどはHadoop上で動いているらしい。

⑧AWS
Amazon Web Serviceのこと。Amazonによるデータベースやデータ解析などのクラウドサービス。ビッグデータや分散処理に対応しているものもある。

⑨非構造化データ
オラクルはじめ従来の一般的なデータベース(リレーショナル・データベース:RDB)は「形の決まったキレイな表」と「表同士の繋がり」をもとにデータを保存したり検索したりしていたが、そういう形にまとめにくい、あるいはあえてまとめないデータ。

⑩NoSQL
RDBの処理はSQLという言語で記述されていたが、それとは違うやり方でデータを保存したり処理したりするやつ、という意味。

⑪KVS
Key Value Storeの略。RDBでは決まった形の表と表同士の繋がりという形で処理していたが、こちらは表の中身の値(Value)と値同士の繋がり(Key)、という形でデータを処理する。非構造化データを含む大規模データを分散処理するにも便利らしい。

⑫R言語
オープンソースの統計解析用言語。世界中の専門家が自由に解析手法のライブラリを作って公開している。有料ソフトを買えない貧乏学者たちが細々使っていたが、最近急に注目を集める。ExadataやGreenplumからも、さらにはSPSSからも直接Rのライブラリを呼び出したりできるようになった。

2.とりあえずデータの概観を掴むだけならまず数千〜1万件ほど抽出していじってみればいい
3.データ分析において重要なのは、「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」という視点。
4.データをビジネスに使うための「3つの問い」
【問1】何かの要因が変化すれば利益は向上するのか?
【問2】そうした変化を起こすような行動は実際に可能なのか?
【問3】変化を起こす行動が可能だとしてコストは利益を上回るのか?
5.死者・犯罪者・暴動を生み出す食べ物とは?
適切な比較を行わない一面的な単純集計がどれだけ愚かなことか。
<次の食べ物を禁止すべきかどうか考えてみましょう>
・心筋梗塞で死亡した日本人の95%以上が生前ずっとこの食べ物を食べていた。
・強盗や殺人などの凶悪犯の70%以上が犯行前24時間以内にこの食べ物を口にしている
・日本人に摂取を禁止すると、精神的なストレス状態が見られることもある。
・江戸時代以降日本で起こった暴動のほとんどは、この食べ物が原因である。
6.統計学における「A/Bテスト」は、ランダム化比較実験と呼ぶ。
AパターンとBパターンの条件の変え方にランダムが含まれていない実験は準実験と呼ぶ。
7.χ(カイ)二乗検定
「意味のある偏り」なのか、それとも「誤差でもこれぐらいの差が生じるのか」といったことを確かめる解析手法
8.p値
実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率のこと。このp値が小さければ(慣例的には5%以下)<中略>「この結果は偶然得られたとは考えにくい」と判断する。
9.適切な比較方法
「目指すべきゴールを達成したもの」と「そうでないもの」の違いを比較すれば良い
10.フェアではない
比較している集団が同じ条件ではないない場合、フェアではない、つまり比較できない。
11.フェアな状況下にする解決方法
①「関連しそうな条件」を考えうる限り継続的に追跡調査し、統計学的な手法を用いて、少なくとも測定された条件については「フェアな比較」をおこなう
②解析ではなくそもそもデータの取り方の時点で「フェアに条件を揃える」
12.統計学の父 ロナルド・A・フィッシャー著「実験計画法」
13.ミルクティの実験
「紅茶を先に入れたミルクティ」か「ミルクを先に入れたミルクティ」かを判別するための実験。
ティカップをずらりと並べ、ランダムで順番に調べる。
5杯をランダムに調べ、偶然にすべて当てる確率は2の5乗分の1、32分の1(約3.1%)、10杯すべて当てたならば1024分の1(約0.1%)。

<以降2013.2.20追記>
14.1億5000万ドル稼いだクレーム対応
ランダム化比較実験の別の意義の事例。
コンチネンタル航空の顧客対応方法にについての実験を実施。

【トラブルが起きた客をランダムに3グループに分類】
①「ただ正式な謝罪レターを送る」
②「謝罪レターに加えたプレミアムクラブへのお試し無料入会期間を与える」
③(比較対照として)「特に何もしない」

【結果】
③何ヵ月か経た後でもまだ怒っていた。
①②翌年コンチネンタル航空へ費やすお金が8%上昇。さらに好感度上昇。
②さらに、もらった顧客の3割が無料期間終了後も自腹で会費を払った
その後もトラブルが起こるたびに詫び状+プレミアムクラブへの案内を送り、1億5000万ドル以上売上増加。

15.人為的なランダム化実験
Aという文字とBという文字をランダムに3つ並べる実験。
「AAA」「BBB」という文字が3連続するのパターンは8パターン中2パターンあるがあまり選ばない傾向がある。

16.統計家たちの間で共有されている倫理的ガイドライン
①ランダム化によって人為的にもたらされる、どれか1つまたはすべての介入が明らかに有害である(またはその可能性が高い)場合はダメ
例)ナチスの人体実験
②仮にすべてが有害でなくても、明らかに不公平なレベルで「ものすごくいい」ものと、「それほどでもない」ものが存在していると事前にわかっている場合もダメ
例)ランダムな半数のがん患者にのみ効果的な薬を投与する

②の例外:一見して一方のグループにとって良いことでも、統計学的な実証が不十分でどちらが良いのかわからない状況がある場合はランダム化比較実験が正当化される。
例外の例①)一部の貧困家庭のみに家賃の補助券を配布
例外の例②)一部の失業者のみに仕事の探し方と面接の受け方を指導
例外の例③)一部の低所得者のみにベーシック・インカムを保証(所得が一定水準を下回ったらその水準に足りなかった額を支給)する

17.フィッシャーの疫学への反論
ランダム化比較実験をおこなっていない解析では、いくら「同様と考えられるグループ内で層別解析をした」としても、厳密に同様な集団間での比較なんてあり得ない。

18.疫学へのフィッシャーの反論の反論
90年代前半の主要な医学雑誌に掲載された論文を比較検討した結果、疫学研究から示されたリスクの大きさは「ランダム化比較実験とあまり結果に差がない」。

19.ダーウィンの進化論
・生物の個体は同じ種でも微妙に違う
・個体の特徴は親から子どもに遺伝する
・特徴の中には生存や繁殖に有利なものもある
・生存や繁殖に有利な特徴を持った個体は世代を経るごとに増加する(逆に不利なものは淘汰される)
・ただしどのような特徴が繁殖や生存に有利なのかは環境によって異なる

20.回帰分析
データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析。
こうした数式で記述される直線のことを回帰直線と呼ぶ。
こうした平均への回帰をゴルトンは「平凡への回帰」と呼ぶ。
後に「平均値への回帰」と呼ばれる。
実際のデータは理論上の推測よりも「平均値に近づく」という意味。

21.真値(しんち)
無制限にデータを得ればわかるはずの真に知りたい値。
たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく判断が下せる(フィッシャー)。

22.回帰分析の基礎用語
・回帰係数の推定値
 切片・傾き(x)ともにデータから算出された値だがあくまでデータに基づき「真値」を推定した結果だということに注意。
・標準誤差
 推定値の誤差の大きさ。回帰係数の推定値と比べて大きければあまり推定値は信頼できないが、この値自体を問題にするよりは後述の信頼区間で考えた方がよい。
・95%信頼区間
 「回帰係数が0」の場合だけでなく様々な回帰係数を想定して「p値が5%以下になる真値としてあり得ない値」とはならない範囲。「ほぼこの範囲内に真値があると考えて間違いない」と考えて大丈夫。
・p値
 仮に回帰係数が0だった場合にデータのバラつきのせいだけでこれぐらいの回帰係数が推定されてしまう確率。やはり慣例的には5%を上回ると「さすがに回帰係数0と考えるのはキビシイ」と判断される。

※まだ半分くらいしか読んでいないので、読了後に更新します。

One Response to "西内啓一「統計学が最強の学問である」メモ"

  1. keira shuichi より:

    初めまして。 私もweb制作に携わっていますが、 ここ最近統計の必要性を強く感じることがあり、
    独学ですがいろいろ勉強中です。 こちらで「統計学が最強の学問である」 が紹介されているの見て、早速を読んでみました。
    分かりづらい部分が丁寧に解説されていて、 統計初心者の私には最適でした。 いろいろと入門書に手を付けていましたが、
    この本が一番身になったと思います。 良書をご紹介いただきありがとうございました!

Leave a Reply

%d人のブロガーが「いいね」をつけました。