データサイエンスとその組織化について

ビッグデータ時代に突入。
生活がデジタル化していくにつれて、データを蓄積するように(できるように)なった。
それらの蓄積されたデータは、様々な形式で保存されてきた。
ネットではアクセスデータとして、お客様の属性データとして、あるものの使用頻度、荷物の集積・配送・受取情報など。それらデータは、個々に存在し、社内であっても交わることがなかった。

なぜならそれらデータの統合的な価値について多くの人が気が付かなかった、あるいはこれほどまでにデータが蓄積できるようになるとは想像できなかったからにほかならない。
蓄積されたデータの多くは短期的に消費され、長期的(4年以上)な視点からは無価値で物として廃棄または静かに保管されてきた。
これからは埃の被ったそれらのデータを整理し、精査、解析し、毎日蓄積された数キロバイト程度のテキストデータを数ギガ、数テラの一つの形式の価値ある情報に変容させようとすることがこれからの時代でしょう。

ということでデータサイエンスとデータサイエンティスト、その組織化についてまとめてみます。

1.データサイエンティストとは

米国マッキンゼーの試算によると、米国では2018年には14万人~19万人不足すると言われている今注目の職種であるデータサイエンティスト。
データサイエンティストとは、企業内外を取り巻く大量のデータを分析し、そこからビジネス的価値を生み出す役割を担う専門職種であり、経営や事業開発等に関するビジネスノウハウ、数理統計等分析技術に関する深い見識、基盤やプログラミングスキル等ITスキルといった幅広い知識が必要とされる職種です。
EMC「データサイエンティスト 育成トレーニングコースについて」より

さらに、EMCで設置している育成コースの項目は以下。

【EMC データサイエンティスト 育成トレーニングコース内容】
1日目:ビッグデータ分析入門+データ分析のライフサイクル
    Big Dataの概要/分析実務の現状/データサイエンティストとは/業界別のBig Data分析/データ分析のライフサイクル
2日目:データ分析の基本~「R」を使って
    R言語の基礎知識/データの調査と分析/モデル構築と評価理論
3日目:ビッグデータ分析入門+データ分析のライフサイクル
    K平均法クラスタリング/アソシエーション・ルール/線形回帰/ロジスティック回帰/単純ベイズ分類機(Naive Bayesian Classifier)/決定木/時系列分析/テキスト分析
4日目:ビッグデータ分析入門+データ分析のライフサイクル
    非構造化データの分析(MapReduceとHadoop)/Hadoopエコシステム/In-database分析 – SQLの要点/In-database分析で活用するSQLとMADlib
5日目:ビッグデータ分析入門+データ分析のライフサイクル
    分析プロジェクトの実施と運用/最終成果の作り方/ビジュアル化のテクニック/課題チャレンジ/データ分析ライフサイクルの適用業務(ケーススタディ)

2.データサイエンティストに必要な素養
データサイエンスをおこなう組織作りとして、素養のある人材を集める必要がある。

【データサイエンティストに必要な素養】
彼らの能力の特定/企業に興味をもたせる/生産的に働いてもらう…

「かれらの能力の特定」について、未だ定義されていない状況。なぜなら、ビッグデータの解析の必要性はわかっているが、どのような能力が必要なのかが定義されていない状況がある。
企業が持つビッグデータをどのように活用していくかの定義とそれに合わせた特定企業マイズされた必要能力の定義付けに基づいた人材集めが必要。

3.データサイエンティストの種類
「セクシーなデータサイエンティストになるまで5年かけていい〜EMCジャパン「第2回 データサイエンティスト・ワークショップ 2012」」レポート
http://ascii.jp/elem/000/000/750/750544/

リクルートテクノロジーズ ビッグデータグループ
シニアアナリスト 西郷彰氏

◯コンサル型・・・事業現場に近いところで課題設定や具体的な施策を示す
◯エンジニア型・・・データマイニングや機械学習の結果を基にサービス品質の向上を目指す
◯性質の異なる2種類のアナリスト、そして事業担当のマーケターの三位一体で、最適なデータ活用を日々検討している

西郷氏はデータ分析者へのメッセージとして、資質やスキルについて説明した。西郷氏は、Facebookのデータサイエンティストの募集要項によると、データ分析の豊富な経験や多様なデータソースへの理解、分析ツールやスクリプト言語、データベースなどの技術的知識や経験などが求められると紹介。さらに著名なビッグデータの書籍ではコミュニケーション能力や企業家精神、好奇心なども必要な資質として書かれているという。データサイエンティストへの道は、「けっこう厳しいです」(西郷氏)というのが実態だ。

長い時間をかけて、分析、ビジネス、テクノロジーなど必要な能力をまんべんなく高め、「能力の面積を拡げていく」ことが重要。

4.データサイエンティストとデータアナリストの違い
IT技術者も知らないと損する「データサイエンティスト」というお仕事~CROSS 2013レポート

ds_Graph
「Albertが定義するデータサイエンティストとデータアナリストの違い
(上村崇氏の講演資料より)」

5.データサイエンティストのワークフローモデル比較
ワークフローモデルは各社出ているので比較。
現在日本では、「Sample, Explore, Modify, Model and Assess」が主流。これをベースに組織づくりをおこなう必要がある。繰り返すが、このモデルは基準であってデータサイエンスをおこなっていくフローは一つではなく、特定企業マイズされていく必要がある。やがて一般化することで、サンプル数が増えていくことにより定義付けをおこなう必要はある。

ステージ/手法 Cross-Undstry Standard Process for Data Missing The Knowledge Discovery in Databases process Sample, Explore, Modify, Model and Assess
フェーズ
構築概要
- DaimlerChrysler, NCR, OHRA, SPSSなどが参加するコンソーシアムで開発された方法論
– データマイニングプロジェクトを進める標準的な手順が6つのフェーズに分解されている
- Fayyad et al.(1996)によってまとめられたデータマイニングのプロセス
– データマイニングにより知見を導き出すための手順
- SASにより構築された、5つのステップからなるデータマイニングツールの導入手順
– 現在では、データマイニングの一般的な方法論とみなされることも多い
フェーズ
(ステージ)1
ビジネスの理解
(Buisiness Understanding)
データセットの選択
(Selection)
データサンプリング
フェーズ
(ステージ)2
データの理解
(Data Understanding)
データの前処理
(Pre-processing)
データ間の関係性などの探索と理解
フェーズ
(ステージ)3
データの準備
(Data Preparation)
データの変換
(Transformation)
変数の選択・合成・変換
(モデリングの準備)
フェーズ
(ステージ)4
モデルの作成
(Modeling)
データマイニング
(Data Mining)
モデルの作成
フェーズ
(ステージ)5
モデルの評価
(Evaluation)
解釈と評価
(Interpretation/Evaluation)
モデルの(信頼性や有用性の)評価
フェーズbr />(ステージ)6 モデルの展開
(Deployment)
- -

6.まとめ
・データサイエンス、データサイエンティストの領域はまだ定義されていない。
 ⇒単なる技術屋の一つにもなれるし、マネジメント分野にもなれることができる
・データを解析し、説明する技術が必要。
 ⇒数値を読み解き、さらに説明する能力。技術+話術が必要。
 ⇒これまでは分業化されていたスキルの統合。特化した人材はこれまでにいない。
・高い解析能力(プログラミングスキル)とアウトプットできる人材
 ⇒これまでウェブディレクションやプログラマー、デザイナーをやっていたような人間が適している。
 ⇒現場では専門に特化しているだけでは使えない。プログラマーがデザインを。デザイナーがプログラミングを学ぶ必要がある現状の延長上にある。
・モデルケースが十分ではない。だからその企業マイズされた組織作りを早急におこなう必要がある。

Leave a Reply

%d人のブロガーが「いいね」をつけました。