現代の企業にとってデータ・イン・モーションのアーキテクチャーが必須である理由

現代の企業にとってデータ・イン・モーションのアーキテクチャーが必須である理由

by Chris Joynt
この記事は、2024/07/29に公開された「What Makes Data-in-Motion Architectures a Must-Have for the Modern Enterprise」の翻訳です。

Cloudera のデータ・イン・モーション (data-in-motion) のアーキテクチャーは、スケーラブルで、モジューラー型であり、再構成できる機能を包括的に揃えたものです。このアーキテクチャーにより、組織が変容するビジネスニーズに俊敏に応え続けながら、効率化を最大にして性能の高いオートメーション化とリアルタイムデータ製品を提供できるようにするのです。このブログでは、ストリーミングデータを支える「理由」を検討し、組織が今後のデータ・イン・モーションのアーキテクチャーをどのように構築すべきかについて、概観的な指針を述べていきます。

どのようなビジネスにおいてでも、データ主導にしていくことが求められています。重要な戦略的意思決定の場合だけでなく、毎日、毎時間、毎分、そして多くの場合で毎秒ごとの数多くの業務上での細かな意思決定においてもです。業務上で改善を重ねていくことが変革の動力になることは、幾度も証明されてきました。自社のバリューチェーンの価値を高めるプロセスをより上手く実施すると、必ず成果が上がります。例えば、あるメーカーだとして説明しましょう。店舗のある階における無数の細かな意思決定を積み重ねていくと、以下のようなメーカーの優位性になっていきます。

  • 在庫管理
  • 機械の状態と性能の監視
  • 製造の監視
  • 品質管理
  • サプライチェーン管理

企業がこれまで以上に、業務に深くデータを組み込む努力をしていることは明らかです。2022年にマッキンゼーは、「The Data-Driven Enterprise of 2025」というレポートで、勝者一人勝ち市場のダイナミクスにより、組織が全力を尽くして、改善を繰り返す好循環への適応を推進するようになるとの見通しを出しました。そのレポートの中で強調されていた7つの特徴のうちの最初の2つは、正にこう述べているのです。

  • データをあらゆる意思決定、意思疎通、プロセスに組み込むべきである
  • データはリアルタイムで処理され、配信されるべきである

注目すべきは、マッキンゼーはどれだけ迅速にデータを生成するかについて述べていないことです。データはリアルタイムで処理され配信されるべきだと言っているのです。組織が重要なイベントに対処する時間を左右するのは、データ生成の速さではなく、どれほど速くエンド・ツー・エンドのワークフローを実行してデータを配信するかであり、そのデータが対応を決めるのです。振動を記録する機械のセンサーは、それ自身にはあまり価値がありません。大事なことは、どれだけ速くデータを収集し、機械の状態の文脈の中で読み込まれた振動を捕えて処理し、異常を検知するために利用して、対応する担当者かシステムに配信するかなのです。

しかし企業は、ビジネスにいつでも利用できるリアルタイムデータを配信するために、古い仕様のアーキテクチャーを変革するという課題に直面しています。多くの組織では分析スタックを形成し、バッチでトランザクションデータを集約し、一般的には数多くの手順を繰り返して重要業績評価指標 (KPI) の報告をしています。リアルタイムデータ用には構築されておらず、未だにほとんどのデータチームにとってデータを移動させ、処理する基本的な手段になっています。報告をするには、最初にリアルタイムデータが出てから保存し、待機してからスタックを通っていく必要があります。分析が可能になる頃には、何が起きたかの過去の見解になり、リアルタイムでのイベントに対して行動する機会は失われてしまうので、洞察の価値が下がります。

ビジネスアナリストやデータサイエンティストがアクセスする必要がある多様な情報源の数が増えていくと、取り組みがさらに複雑化していきます。残念ながら、数多くのエンタープライズデータは十分に活用されていません。活用されていないデータは、時間の経過とともにデータとしての価値を失ったり劣化したりして、機会損失につながることが多くあります。例えば、50%の会社は自社のデータの価値が数時間以内に失われていることを認めていて、ストリーミングデータをリアルタイムで分析しているとするのは、わずか26%の会社です。企業が、データが劣化する前に活用しようと苦戦しているなら、投資してきた高速データを十分に活用できていないのです。

さらに説明を進める前に、データ・イン・モーションとは何かを明確にしましょう。簡単に言うとデータ・イン・モーションとは、保存されていないデータのことです。(保存データ/data at restは永続ストレージ中のデータを指します。) センサーの読み込みなど、ある時点で個別のイベントが途切れずに生じ続ける、流れているデータなどです。その時々で組織のシステムの中を移動するデータも含まれます。例えば、認証サーバーから Security Information and Event Management のツールに送られたログイン試行の記録も、データ・イン・モーションに該当します。一方、保存されているデータは問い合わせを待つ以外、あまりすることがありません。データ・イン・モーションは、流れているアクティブなデータなのです。

データ・イン・モーションのアーキテクチャーとは、アクティブなデータが企業内を自由に流れることを妨げる可能性のある摩擦を取り除くのに必要とされる、スケーラブルなデータのインフラの構築のことです。これはリアルタイムデータを第一級オブジェクトにする戦略的な機能の構築に関することです。データ・イン・モーションは、単なるストリーミング以上のことなのです。

今日のビジネス環境で競争するために必要な効率と俊敏性を備えた、大規模なリアルタイムでの洞察を実現するには、ストリーミングのパイプラインの構築と、古い分析スタックへの高速データの移動以上のことが要求されます。データ・イン・モーションのアーキテクチャーの重要な要素は次の3つです。

  • スケーラブルなデータの移動により、どんなシステムやデバイスからのデータも効率的な事前処理を行い、データが生成されるとすぐに段階的にリアルタイムのストリームにすることができます。従来からの Extract, Transform, & Load (ETL) のツールにはこの機能がありますが、データを段階的に移動させるのではなく、通常はバッチ処理やマイクロバッチ処理に依存します。つまり、そうしたツールは真のリアルタイム用に構築されていないのです。
  • エンタープライズストリーム管理により、いくつもの “publishing” ソースと “subscribing” 先にあるリアルタイムデータを仲介することができる媒体の管理が可能になります。この機能はリアルタイムの使用事例を作り上げるバックボーンとなり、企業中に無秩序に広がる点と点での接続を構築する必要がなくなります。ストリームが規模を調整するので、管理の対象は、ツールを利用した簡単なアプリケーションの“publishing”と“subscribing”への接続、データの質の確保、データ転送、状態や性能の監視になります。
  • 民主化されたストリーム処理により、ノーコード領域のエキスパートがストリーミングデータにトランスフォーメーション、規則またはビジネスのロジックを適用し、リアルタイムで複雑なイベントを特定して、オートメーション化したワークフローを作動させるか、ユーザーに意思決定ができる状態のデータを送信するか、あるいはその両方が可能になります。この機能により、大量の生データは文脈に沿ったデータに変換され、ビジネスプロセスでいつでも利用可能な状態にできます。領域のエキスパートは、データが組織中に配信される前に、データの利用ができて、自分たちの知識を投入する必要があります。この機能は従来の分析スタックにもありますが、分割された非効率な手順になっています。

あらゆるプロセスや意思決定にもデータを組み込んでいく事業運営へと変革するには、データ・イン・モーションのアーキテクチャーが、どのソースシステムからもデータを取得し、そのデータを取るべきプロセスと下すべき意思決定の文脈で処理し、リアルタイムでいくつもの送り先に配信することが可能である必要があります。組織の規模が大きくなると、データ・イン・モーションの恩恵は飛躍的に大きくなります。効率的なデータ・イン・モーションのアーキテクチャーの特徴は、組織全体での遅延時間を最短にして、データ活用を最大化することです。以下にその事例をいくつか挙げます。

  • マーケティング、受注から決済までの一連の業務、サプライチェーン、ファイナンス、カスタマーサービスにリアルタイムの最新情報を提供し、効率的な業務を可能にして顧客を満足させるeコマース組織全体の受注の流れ。
  • 組織中に流されて、不正検出、ネットワークの最適化、請求書の作成、マーケティング、カスタマーサービスなどの様々なプロセスに活用される通信ネットワークでのユーザーのセッション。

データ・イン・モーションで真のリアルタイムが実現し、分析者は鮮度が高く、最新の状態で処理されて、いつでも分析可能なデータを入手でき、洞察の質が向上して、価値実現までの時間短縮を加速できます。

データ・イン・モーションのアーキテクチャーは、こうした機能が個別に修正できる状態になっています。そのため組織は、その時々のニーズに応えるテクノロジーを採用して、成熟していくストリーミングを構築し続けることができます。製造中の生産ラインに、データ移動の機能を用いて、既存のストリームにデータを運ぶことでセンサーを組み込み済みであれば、新しいセンサーのストリームの搭載などは、アーキテクチャー全体を修正することなく容易にできます。

ソースシステムへの接続を再構築せずにストリーミングデータを管理する方法に、新しい規則を加えることができるようになります。同様に、新たな策略を特定した場合に、サイバーセキュリティーへの脅威に対するリアルタイムの監視に、新しいロジックを容易に追加できるようになります。リアルタイムデータの需要が増え続けて、新しいデータソースとアプリケーションが稼働していくと、妥協せずに効率的なリソース使用をしながら、必要なコンポーネントを個別にスケールアップすることが楽々とできるようになります。企業がデータ取得、処理、配信の方法を変更することができるスピードは、組織の機敏性にとって極めて重要です。

拡大していくリアルタイムデータの取得、処理、配信は、業務の効率化を推進する新しい機会を切り開くために極めて重要です。これを大量に行うことができる能力が、獲得する経済的価値を高める鍵になるのです。機敏であり続ける能力は、イノベーションのスピードを持続させるために極めて重要です。さらに、アーキテクチャーを簡素化することの価値は軽視できません。ハーバード・ビジネス・スクール の教授であり、技術研究者でもある Marco Iansiti 教授は、最近の論文で、経済学者の Ruiging Cao 氏と共同研究を行い、「データアーキテクチャーの一貫性」と、企業全体の持続的なイノベーションのスピードがもたらし続ける利益とをモデル化しました。Iansiti 教授が定義する、首尾一貫したデータアーキテクチャーとは、理解と修正がしやすく、ビジネスプロセスや拡大するデジタルトランスフォーメーションの目的と十分に連携しているものだとしています。同教授は、多くのデジタル世代によるイノベーションのスピードを支える真の推進力はカルチャーではない、ビジネスプロセスの最適化に対して迅速に反復されるアプローチを十分に支援する首尾一貫したデータアーキテクチャーであると理論づけています。不要なツールと処理の課程を減らすことで、ライセンス、リソースの活用、人事への影響、業務管理費の観点での定量化が可能になります。しかし、首尾一貫したデータアーキテクチャーが実現する、業務上での絶え間ない改善を積み重ねていくのに必要な持続的イノベーションのスピードと比べると、こうした恩恵は矮小化されています。

Cloudera のリアルタイムデータへの包括的なアプローチは、企業のデータ・イン・モーションのアーキテクチャー構築を支援し、規模に合わせてデータ移動のために、古いプロセスを簡素化するために設計されています。

Clouderaがどのようにご支援できるかは、「Gigaom Radar for Streaming Data Platforms」のレポート (英語) も合わせてご確認ください。

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。