ストリーミング・エッジ・データ収集とグローバルデータ配信

by George Vetticaden
この記事は、2022/06/09に公開された「Streaming Edge Data Collection and Global Data Distribution」の翻訳です。

ユニバーサルデータ配信に関する前回の記事では、企業においてデータの流れを制御する必要性が高まっていることを取り上げました。オンプレミスとクラウドの両方において、データの発生から消費に至るまで、すべてのデータの流れを、シンプルで安全、かつユニバーサルで拡張性があり、費用対効果の高い方法で制御することが必要とされています。データの配信をする必要のあるクラウドサービス(データレイク、レイクハウス、クラウドウェアハウス、クラウドストリーミングシステム、クラウドビジネスプロセスなど)が急増する中、制御しながら、異なるサービスにデータを配信できる自由度と柔軟性がこれまで以上に重要となっています。

Apache NiFiを搭載したクラウドネイティブのユニバーサルデータ配信のサービス Cloudera DataFlow for the Public Cloud(CDF-PC)は、「接続性とアプリケーションへのアクセス性」「相手を選ばないデータ配信」「優先順位をつけたストリーミングデータパイプライン」「開発者のアクセシビリティ」という4つの主要機能でデータ収集と配信に関する課題を解決すべく構築されています。

今回は、ユニバーサルデータ配信についての2つ目の記事として、いくつかの異なるデータ配信のユースケースを取り上げ、さらにそのうちの1つをより深掘りしていきます。

CDP-PCの説明図

データ配信におけるお客様のユースケース

企業は、さまざまなデータ配信のユースケースに CDF-PC を利用しています。それには次のようなものが含まれます。

  • 何十万ものエッジデバイスからのストリーミングデータ収集によるサイバーセキュリティ分析や SIEM の最適化
  • セルフサービス分析ワークスペースのプロビジョニングやレイクハウス(例:Databricks、Dremio)へのデータの取り込み
  • クラウドオブジェクトストレージ(AWS、Azure、Google Cloud)やクラウドウェアハウス(Snowflake、Redshift、Google BigQuery)に支えられたクラウド事業者のデータレイクへのデータの取り込み

データ配信のユースケースとしてよく目にするのは、次の3つのクラスです。

  • データレイクハウスとクラウドウェアハウスの取り込み: CDF-PC は、どのデータレイクハウスやウェアハウスでも使える1つのツールで、お客様のデータパイプラインを最新化します。400以上のプロセッサをサポートする CDF-PC は、データの収集と、希望のレイクハウスが要求する形式への変換を簡単にします。CDF-PC は非構造化データをそのまま扱い、スキーマを強制することなく高いスループットを達成したり、スキーマを適用して非構造化データに構造を与え、 NiFi Expression Language や SQL クエリを使用して簡単にデータを変換する柔軟性を提供します。
  • サイバーセキュリティとログの最適化:データ収集パイプラインを最新化し、世界中の何千ものソースからリアルタイムにデータを収集、フィルタリングすることで、組織はサイバーセキュリティソリューションのコストを削減することができます。すべてのデバイスとアプリケーションのログを SIEM に取り込むことは、コストとパフォーマンスの観点から考えて拡張可能なアプローチではありません。CDF-PC を使うと、どこからでもログデータを収集し、ノイズをフィルタリングして、SIEM システムに保存されるデータを管理可能な状態に保つことができます。
  • IoTとストリーミングデータの収集:このユースケースでは、エッジにある IoT デバイスがクラウド上の中央データ配信フローにデータを送信する必要があり、必要に応じてスケールアップとスケールダウンが行われます。CDF-PC はスケールの大きなストリーミングデータを扱うために構築されています。そのため、企業は IoT プロジェクトを小さく始めても、ソースデバイスの追加によるデータのバーストに対応し、断続的な接続の問題を処理できるという確信が持てます。

IoTとストリーミングデータ収集のユースケース

エッジから POS データを収集し、複数のクラウドサービスにグローバルに配信します。

IoT とストリーミングデータ収集の事例について、グローバルな小売企業の具体的なユースケースと、お客様のデータ配信ニーズを解決するために CDF-PC がどのように使用されたかを見てみましょう。このお客様は、多国籍に展開する小売企業で、世界中の POS システムからデータを収集し、6つの主要な要件で複数のクラウドサービスに配信したいと考えています。

ハイブリットデータ収集と配信におけるデータフローの要件図

  • 要件1:この会社では、数千の POS システムを保有しており、リアルタイムストリーミングモードでデータを収集するための拡張性のある方法が必要である。
  • 要件2:開発者は、異なる地域でエッジデータ収集フローを開発し、それを数千のPOSシステムに簡単に配備するための俊敏性のあるローコードアプローチを必要としている。
  • 要件3:データレジデンシー要件。POS データとそのデータの処理は、その地域の地理的ルールに基づいてデータが編集されるまで、元の地域外で発生することはできない。
  • 要件4:異なる地理的ルールにより、異なるクラウドプロバイダーを使用し、異なる地域でデータを処理できるようにする必要がある。
  • 要件5:要件が分散しているため、地域やクラウドプロバイダーを超えて集中監視することが重要である。
  • 要件6:複数のポイントソリューションを必要とせずに、Cloud Provider Analytics Services、Snowflake、Kafka などの多様な配信先やサービスへデータを配信する機能が必要である。

データ配信サービスによるハイブリッドなデータ収集・配信要件への対応

このソリューションは、最新リリースの Cloudera DataFlow for the Public Cloud(CDF-PC)および Cloudera Edge Management(CEM)を使用して実装されました。

  • CDF-PC 2.0リリース:最新のApache NiFi Release 1.16と新しいインバウンド接続機能をサポートし、エッジクライアントがサービスにデータをストリームするためのイングレス・ゲートウェイ・エンドポイントを簡単に作成することができるようになりました。また、Snowflake のようなクラウドウェアハウスへのデータのインジェストストリームを容易にする新しいコネクタも追加されました。
  • CEM 4.0リリース:CEM の最新リリースは、エッジフロー管理機能だけでなく、高度なエージェント管理とモニタリングも提供します。

CDF-PC と CEM を使って、データ配信のユースケースでこれら6つの要件をどのように解決したかは、次の動画でご確認ください。

ソリューションまとめ

以下の図は、上記の要件に対応するために、どのようにソリューションが実装されたかを説明したものです。

データ配信サービスによるハイブリッドなデータ収集・配信要件のgif

  1. Cloudera Edge Managementを利用して、POS データをデータ起点に限りなく近い位置で取り込み、データ配信サービスにデータを流すエッジデータ収集フローを開発しました。CEM の最新リリースでは、エッジフロー管理機能だけでなく、高度なエージェント管理・監視機能も提供されています。分散型ストリーミングデータ収集アプローチは、要件1および2の拡張性と俊敏性のニーズに対応しています。
  2. POS MiNiFi の各エージェントは、CDF for Public Cloud を利用した配信フローにデータをストリーミングします。配信フローは、POS データが発信された地域とクラウドプロバイダーによって決定されます。これは、要件3と4のデータレジデンシーとプロセスの場所を厭わないというニーズに対応するものです。
  3. これらのデータ配信 NiFi フローの1つをダブルクリックすると、インジェスト、プロセス、配信の3つのコンポーネントで構成されていることがわかります。POS データを生成するクライアントは数十万に及ぶため、これらのクライアントそれぞれに接続するためにコネクタを使用することは、拡張性のあるモデルとは言えません。CDF Public Cloud の最新リリースでは、ロードバランサ、DNS レコード、証明書の作成を自動化し、数回のクリックであらゆるクラウドプロバイダのイングレスゲートウェイを設定することができることを示しました。イングレスゲートウェイを使うと,各POS クライアントはこのゲートウェイのエンドポイントにデータをストリームすることができます。
  4. データがイングレスゲートウェイに到達すると、NIFi 配信フローがルーティング、フィルタリング、読み取り処理を実行してから、Cloudera Streams Processing や Snowflake などのダウンストリームサービスに配信し、要件6に対応します。CDF Public Cloud の最新リリースでは、新しい Snowflake 接続プールコントローラサービスにより、Snowflakeへのインジェストがより簡単になりました。
  5. 最後に CDF-PC と CEM は、複数のクラウドプロバイダーにわたるすべてのエッジエージェントと地域データ配信フローに対して集中的な監視と管理機能を提供し、分散資産の集中的な監視という要件5にも対応しています。

始める

IoT ユースケースの実装、データレイクやレイクハウスへのデータ取り込み、各種クラウドサービスへのデータ配信の詳細については、インタラクティブな製品ツアーにご参加いただくか、無料トライアルにぜひご登録ください。

 

モダンデータウェアハウスが直面する3つの最大の問題

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。