最近話題のIT用語のひとつに「ビッグデータ」があります。ビッグデータがビジネスを変える、ビッグデータが世界を変える、といったコピーを目にしたことも一度や二度ではないでしょう。本記事ではビッグデータの特徴に加え、今日急速に普及している理由について解説します。
ビッグデータの定義
ビッグデータという言葉は、文字通りに訳せば「大きいデータ」です。この解釈は決して間違いではありませんが、ビッグデータと呼ばれるデータの特徴は大きさ(容量)ばかりではありません。まずはビッグデータを特徴づける4つの条件をみてみましょう。
①大容量(Volume)
最初に挙げる特徴は、文字通りの「大きさ」つまり容量です。ビッグデータは「数テラバイト〜数ペタバイト」もの膨大な容量を持っています。ちなみにペタバイトとは約1000テラバイト、テラバイトとは約1000ギガバイトのことです。スマートフォンのストレージが64ギガバイト〜254ギガバイト程度であることを考えると、どれほど巨大かがイメージできるのではないでしょうか。
②多様性(Variety)
データの多様性もビッグデータの特徴です。データベースに格納できるテキストデータはもちろんのこと、画像データや音声データ、動画データ、さらには各種センサーから取得するセンサーデータまで、あらゆる形式のデータがビッグデータを構成しています。
③頻度・速度(Velocity)
ビッグデータは保存頻度の高さや蓄積スピードの速さも際立っています。たとえば交通系ICカードの利用情報や、SNSの投稿・閲覧に関するデータは昼夜を問わず絶え間なく増え続けていて、リアルタイムに更新されています。
④経済的価値(Value)
ビッグデータは単なる研究資料ではありません。蓄積されたデータを企業などが活用し、そこから経済的な価値を生み出せることもビッグデータの特徴です。
ビッグデータの4つのジャンル
ビッグデータには大きく分けて4つのジャンルがあります。
オープンデータ
オープンデータとは国や自治体が保有するデータで、個人や企業が利用できるよう公開されているものを指します。内容は国土・気象に関するデータから人口・世帯に関するデータ、各種産業に関するデータや社会政策に関するデータなどで、総務省のデータカタログサイト「DATA GO JP」から入手できます。
ノウハウを構造化したデータ
ノウハウを構造化したデータとは、企業が日々収集するデータや、長年にわたる生産ノウハウを蓄積した農業データなど、第三者や後世の人たちに伝えることを目的としたデジタルデータです。
M2Mのストリーミングデータ
M2MのストリーミングデータとはM2M(Machine to Machine)、つまり機械と機会がネットワーク越しに直接交換するデータを、リアルタイムに再生したデータです。たとえば工場で動く機械が発生するデータは、そのままでは人間が読み取ることはできません。このデータを人間が知覚し、分析できるようにしたものがビッグデータの一部を構成します。
パーソナルデータ
パーソナルデータとは文字通り、個人に関する情報です。これには氏名や生年月日といった特定の個人を識別できるデータはもちろん、個人の行動履歴、さらに個人の識別ができない「匿名加工情報」も含まれます。
ビッグデータが急に普及した理由
現代のビッグデータ普及のスピードには目をみはるものがあります。その背景にあるのは、いうまでもなくインターネットを含むネットワーク技術の進歩です。
それともうひとつ、「Hadoop(ハドゥープ)」と呼ばれる技術もビッグデータの普及を後押ししています。Hadoopとはマスターサーバの下に多数のスレーブサーバをつないで、大量のデータを使った計算を高速で処理したり、大容量のデータを格納する分散処理技術のことです。1台のサーバでは扱いきれないビッグデータもHadoopを使えば処理できますし、接続されるスレーブサーバが多ければ多いほど、より大規模に、より高速にデータを処理できるようになります。
このようにビッグデータの普及はインターネット技術やHadoopによって支えられており、その勢いは今後ますます強まることでしょう。
ビッグデータの問題点
ビッグデータは適切に活用されることで経済的な利益を生み出しますが、一方でいくつかの課題も指摘されています。
たとえば個人情報の収集と取り扱いをめぐっては、自分たちについてのデータが売り買いされ、ビジネスに利用されることについて「プライバシーの侵害」を懸念する声は少なくありません。
またビッグデータそのものの進歩に人間側の教育や訓練が追いついておらず、特に日本では、ビッグデータを分析できる技術者や研究者が決定的に不足しているのが現状です。
こうした課題にどう対処していくかは、今後のビッグデータ普及にも大きな影響を与えると考えられます。
ビッグデータの活用はビジネス発展のカギ
リアルタイムに蓄積される、膨大で多様なビッグデータ。企業にとってはビジネスの発展につながる「宝の山」ともいえる資源ですが、それを生かすには使い手である人間の側にも特別な技能が求められます。こちらの記事ではビッグデータと関連の深い機械学習やAIなどの技術と、それらの技術を担う職種について解説します。
Clouderaとビッグデータプラットフォームの進化と取り組み
Clouderaは、2008年に世界初の商用Hadoopを世に送り出したビッグデータプラットフォームのグローバルリーダーです。
現在Clouderaは、Hadoopの分散処理技術だけに留まらず、データの「収集」、「加工」、「レポーティング」、「分析」、「予測」などのデータライフサイクルの上流から下流まで全てサポートできるプラットフォームに進化を遂げています。新たなプラットフォームに関する情報はこちらをご覧ください。