データサイエンティスト職種研究

すごくまとまった資料なので、一部転載させていただきました。
怒られたら下ろします。
怒られる前に謝っておきます。ごめんなさい。

[理系ナビ]データサイエンティスト職種研究セミナー 倉橋

http://sssslide.com/www.slideshare.net/isseing333/ss-13690717

◯データマイニングとは?
データの中に存在する「相関関係」や「パターン」を発見すること。
これを企業活動に反映させること。

◯分析のPDCA
フェーズ1:データの収集・加工
      DBの作成・接続/ログの収集/システム開発/サーベイ・調査
フェーズ2:データの可視化
      ヒストグラム/散布図/時系列プロット/円グラフ・棒グラフ/地域プロット
フェーズ3:モデル作成
      DBの作成・接続/ログ収集/システム開発/サーベイ・調査
フェーズ4:効果検証・デザイン
      A・Bテスト/ランダム試験/実験計画

◯ゴールドラッシュとデータマイニング
 鉱山:データベース、データ
 金、宝石:売上のための情報
 鉱夫:データマイナー、データサイエンティスト
 ツルハシ:分析ソフト
 技術:分析力

◯データサイエンティスト
 分析力 + エンジニア

◯データサイエンティストに必要なスキル
 1.エンジニア系
   ①Webに公開されているデータの取得
    a.スクリプトによる取得
      Twitterデータ/ブログ記事/ニュース記事/2ch/天気
    b.利用するプログラミング言語
      Python/Ruby/Perl/JAVA/C/C++/R
    c.ダウンロードによる取得
      官公庁の公開データ:Open Goverment
      Data Market

   ②Unix系コマンドによるデータ加工
    Windowsのコマンドプロンプト、Macのターミナル

   ③データベースによるデータ操作
    ORACLE/MySQL/PostgreSQL/SQLite/Hadoop系(Hive、Pig)/MongoDB
    ※SQLコマンドは基本的に似ているのでどれか1つマスターすれば応用可能

   ④スクリプト言語によるデータ分析
    R【小規模データ 〜1GB】:分析専用スクリプト言語
    Python【中規模データ 〜100GB】:汎用スクリプト言語
    Hadoop+Mahout(JAVA)【大規模データ 100GB〜】:大規模データで機械学習をおこなう際に利用される組み合わせ

 2.マーケティング系
   ①ビジネス視点に基づいた分析、提案
   ②クライアントのニーズ把握
   ③データ収集、調査、統計についての専門知識
   ④ロジカルなプレゼンテーション力

 3.共通して必要な知識
   統計学、機会学習に関する知識

◯データサイエンティストになるためにすること
 1.理論の学習 
 2.エンジニアスキルの勉強
   R、Python、Unixコマンドを身につける
 3.情報収集

◯エンジニア系で身に付けるべきお勧めスキル
 R、Python(Ruby、Perl)、Unixコマンド、MySQL
 <余力があれば>
 SAS、Matlab、JAVA、C、C++、Hadoop系、MongoDB

◯マーケティング系:「ビジネス」に強くなることが必要
 1.ビジネスセンス
 2.統計学の専門知識が重要

 ✓ ビジネス本を読む
 ✓ 分野毎の業界知識を詰め込む

 ✓ 専門用語を素人にも分かりやすく説明できることが必要
   統計学の深い理解が必須
 ✓ 「情報収集」していくことで自然と身につく部分もある

Leave a Reply

%d人のブロガーが「いいね」をつけました。