ビックデータ活用の次のステップ!Hadoopでデータ解析!!

タイのバンコクでデータ解析を行っています。

ビックデータ時代のコアソリューションとして、Hadoopに注目しています。

Hadoopはオープンソースのプラットフォームで大量データを複数のマシンで分散処理させるためのものです。

それまでも分散処理という概念はあり、いくつかのプラットフォームが存在していますが、Hadoopはプロセス間通信の仕組みを簡略化して、エンジニアがロジックに集中出来る様にしてくれます。

Hadoopの肝はMapReduceにあります。
Mapは入力データを読み込みフィルタリングする役割で、ReduceはMapから渡されたデータをまとめ上げて結果を出力する機能です。
HadoopのMap機能とReduce機能は任意の複数のサーバに分散して配置できます。
分散処理が可能になれば、1Taskの完了までの待ち時間が大幅に削減できます。
結果、1台で数日の作業を数時間で完了させることが出来る様になります。

大量のテキストをKeyとValueに分解し、それぞれを集計する機能がMapReduceです。

MapReduceの機能の詳細は他の技術系のブログを参照いただければと思いますが、
ここで注目したいのは、HadoopとM2Mの相性の良さです。

昨今のM2Mの小型化とネットワーク化については著しい進歩があり、
多くの消費行動がデータ化されて蓄積されています。

しかしまだM2Mにより蓄積されたデータを効果的に解析して、リアルタイムに何かの施策を打つといったところまでは進んでいない様に感じています。

ビックデータという言葉が真価を発揮するのはこれからではないでしょうか?

大量のデータを取得して備蓄するということは既にできています。
次のステップを以下に短い時間で多くの傾向を抽出するか、
そしてその傾向をどのようにして活かすのかというところだと考えています。

なかなかこの部分が進んでいません。
データ解析に長じた人材の不足とデータ解析にかかる時間の長さが問題となっている様に思います。

そこでHadoopです。

Hadoopは分散処理のブラットフォームを手軽に提供します。
Hadoopのロジック部分であるMapReduceはシンプルな解析機能の集合体で
プログラミングの知識をそれほど必要としません。

Hadoopは分散処理のプラットフォームとしてこの問題を解決するきっかけになるのではないかと期待しています。

データ解析に関するご相談がございましたら、お気軽にお問い合わせ下さい。