ビッグデータ:新鮮でなければ意味がない!
ITで話題のキーワード「ビッグデータ」と共に、よく聞かれるキーワードに「データドリブン(データ駆動)」という言葉があります。
例えば、「データドリブン型経営」や「ビッグデータ・ドリブン・マーケティング」など、様々な方法を使って入手したデータを分析し、経営やマーケティング、営業支援や営業活動などに活用していくことです。
ところで、こうした分析ではその「量」が重要視されていますが、それらのデータは永続的に利用できるのでしょうか。
その答えは「No」です。データにも「鮮度」があり、時間の経過とともに情報が古くなっていきます。
今回はデータが期限切れとなる原因と解決策を見ていきましょう。
photo credit: Luke Peterson Photography via photopin cc
データの質にも目を向けよう
ビジネスにおいてデータを活用する利点は、データに基づくリアルタイム解析にあります。ビジネスの流れの先行きを予測し、対応することによって競争力を維持します。より正確な判断のために豊富なデータが求められ、昨今のビッグデータの登場と相成るわけです。
しかしながら、テクノロジーの進化は日進月歩であり、世の中の動きも速く、それに対応していくためには、データも量だけでなく、その鮮度も非常に重要になってきていることを再認識しましょう。
データにもある「期限切れ」
わざわざ古いデータを解析しようとは考えていなくても、果たして、手元にあるデータは充分に新しいでしょうか?
データは多くのソースから入手できますが、それら全てのデータを、すぐに解析することは容易ではありません。データを処理するには時間がかかります。あまりに時間がかかりすぎると、最新のデータは解析が間に合わなくなり、「データが古くなる」ということになってしまうのです。
データが「期限切れ」になる原因
データは、巨大な貯蔵タンクにどんどん注ぎ込まれ、蛇口を捻れば、欲しい情報が溢れ出すというようなものではありません。
デルフィックスのゼネラルマネージャーであり、EMEA のバイスプレジデントであるイアン・チジー氏は、データが古くなる原因、時間がかかってしまう大きな要因として、以下の3つをあげています。
1.データの入手
データはビジネスアプリケーションを通して生み出されます。つまり、解析の前に数多くのアプリケーションからデータを引っ張り出し、操作できるようなデータストアへ送らなければなりません。そのデータの移動は限られた時間で行われなければならず、データ量がその制限を超えると、遅れが出てデータが古くなります。
2.データの複製
データの複製は、テストやバックアップ、万一のリカバリーのため等の理由で必要ですが、通常は平均して8から10回の複製が行われています。しかし、不必要なテラバイトという大きさの複製は、他の全ての作業を遅らせる原因になります。
3.データのマスキング
テストやQA(品質保証)、分析にデータを使う際に、個人情報等は保護しなければなりません。これは難しい作業ではありませんが、データベースが複数あって、何度も繰り返さねばならないとなると話は別です。
上記のような足かせでデータの処理に時間がかかると、データの精度が低下し、商品のリリースが遅れることやエラーの発生率の増加につながる可能性を含んでいるので注意が必要であるとチジー氏は指摘しています。
データベースの仮想化
以上の問題の解決策として、チジー氏はデータベースの仮想化をあげています。
「データベースの仮想化は、まだ新しい技術だが、驚くような成果が既に得られている。2週間の行程が数時間で完了し、ビッグデータがもたらすと約束している洞察とビジネスインテリジェンスを得ることができる」と、チジー氏は説明しています。
仮想化により、データ解析のための重荷を減らすことができるので、結果的に多くのデータ量を迅速に扱うことも可能になるのです。