Apache Hadoopについて

ビッグデータを調べていると出てくるHadoop。
下記にまとめられていたので参考にしてみた。
昨年までの動きと2013年のトレンドが見えてきた。
要は、Hadoopは勉強するに足るDBであるということ。
リアルタイム性は今後考えていかないといけないけど。

参考:builder「Hadoop、NoSQL、PostgreSQL、インメモリDB–2013年ビッグデータ技術の注目ポイントはデータベース

【導入メリット】
◯オープンソースのHive、Pig、Zookeeperなどで構成されるエコシステム
◯エンタープライズでの利用に最適化されたCloudera、MapR、Hortonworksなどのサードパーティ製のディストリビューション
◯国内外を問わず大規模なHadoop導入事例が多い

【導入デメリット】
◯並列でバッチ処理することが得意
◯ビッグデータ分析でニーズが急増しているリアルタイム処理、アドホックなクエリ検索などにはあまり向いていない
◯MapReduceの習得が難しいため、専門のスキルをもった技術者が育ちにくい

【デメリット補完方法】
大手ITベンダでは自社のデータプラットフォームとHadoopを統合し、データの収集はHadoopで、分析はRDBMSで行うシステムを売りにしているところが多い。

ついでに、ちょっと知識のなかった、NoSQLについてもメモ。

【NoSQL】

“目的特化型データベース”と呼ばれることが多く、ソーシャルメディアやソーシャルゲームなど大量のアクセスが頻繁に発生するBtoCサイトでの事例が中心で、業務アプリケーションには適さないという考えが主流だった。
これはNoSQLがスケールとパフォーマンスの向上を重視するために、データアクセスの方法に制限を加え、さらに一貫性の維持に対する要求を「最終的につじつまが合えばいい」というところまで緩和していることに起因する(例を挙げれば、Facebookの「いいね!」ボタンを押してページが更新されるまでに数秒以上かかっても大きな問題はない、という考え方)。

内容が専門的過ぎてこれもかなりの勉強が必要。

散財したデータの収集と格納。それらのデータマイニングと抽出。そして解析からのモデル構築からのモデル評価。
そしてデータクレンジング。
この過程の全てに精通することはちょっと時間がかかるけど、ひと通りは学習しても損はないか。
まずはRを中心とした統計解析から学習か。

Leave a Reply

%d人のブロガーが「いいね」をつけました。