Apache Icebergを活用したCloudera Data Platformにおけるマルチクラウドオープンレイクハウスの実装

by Bill Zhang, Shaun Ahmadian, Zoltán Borók-Nagy, and Vincent Kulandaisamy
この記事は、2022/11/15 に公開された「Implement a Multi-Cloud Open Lakehouse with Apache Iceberg in Cloudera Data Platform」の翻訳です。

Cloudera Data Platform (CDP) におけるApache Icebergの一般提供を発表して以来、Teranet 社のようなClouderaのお客様は、すべての分析ワークロードに対応する将来性のあるデータプラットフォームを構築するために、オープンレイクハウスを構築してきました。Cloudera のパートナーも CDP の Apache Iceberg から恩恵を受けています。例えば Modak Nabu 社は、ペタバイト規模でのデータ取り込み、キュレーションや消費を加速させるために、エンタープライズ顧客を支援しています。今回、Cloudera の CDP での Apache Iceberg の統合におけるいくつかの新しい進歩についてお知らせします。これによって、マルチクラウド・オープン・データレイクハウスの実装を加速できます。

CDPパブリッククラウドによるマルチクラウド展開

CDP における Apache Iceberg において、マルチクラウド機能が利用可能になりました。パブリッククラウドユーザーを対象とした最近の Gartner調査によると、81%の組織が2つ以上のパブリッククラウドプロバイダーと連携しています。CDP を使用することで、顧客はストレージ、コンピュート、アクセスをクラウドが提供する自由度を持って展開でき、ベンダーロックインを避け、最良のソリューションを活用できます。Kubernetes (K8s) とコンテナ化技術を活用することで、AWS、Azure、Google Cloud を含む複数のクラウド間でアプリケーションを一貫して展開、「一度書いて、どこでも実行」し、クラウド間を容易に移動できるポータビリティを実現できます。異なるクラウドサービスプロバイダー間で機能する共通のインターフェースをCDP で使用することで、一貫したセキュリティ、ガバナンス、トレーサビリティを確保しながらデータサイロを解消し、Apache Iceberg ベースのワークロードを展開環境間でシームレスに移動させることができます。

高度な機能

CDP における Apache Iceberg の新機能により、マルチクラウドオープンレイクハウスの実装を加速できます。

  • 強化されたマルチファンクション分析

顧客がすでに使用している Cloudera Data Warehousing (CDW) 、Cloudera Data Engineering (CDE) 、Cloudera Machine Learning (CML) などの CDP の主要なデータサービスに加えて、Cloudera Data Flow (CDF) と Cloudera Stream Processing (CSP) を Apache Iceberg のテーブル形式と統合しました。これにより、ストリーミングデータをシームレスかつ大規模に処理できます。これらのCDPデータサービスのコンピュートエンジンは、Cloudera 独自の Cloudera Shared Data Experience (SDX) が提供する共有セキュリティとガバナンスにより、Iceberg テーブル内のデータセットに同時にアクセスして処理できます。

  • 驚くほど高速なテーブル移行

インプレーステーブル移行により、データファイルを再生成する必要がないため、Iceberg テーブルへの変換を迅速に行うことができます。メタデータのみが再生成されます。新しく生成されたメタデータは、以下の図に示すように、ソースデータファイルを指し示すことになります。

  • テーブルロールバックを使用したデータ品質

データ品質の問題が明らかになった場合、テーブルロールバックを使用して既知の高品質な状態に戻すことができます。データを既知の良好な状態に迅速に復元し、より迅速かつ容易に是正措置を講じることができます。

  • 改善されたテーブルメンテナンスによるパフォーマンスと管理性の維持

古いスナップショットの有効期限を設定してそのメタデータを削除したり、小さなファイルを結合してより効率的なデータ処理を行うコンパクション機能など、新しいテーブルメンテナンス機能を使用して、Icebergテーブルのパフォーマンスと全体的な管理性を向上させます。

  • ORCオープンファイル形式のサポート

Parquet オープンファイル形式のサポートに加えて、CDP の Iceberg は最新リリースでORC もサポートするようになりました。これらの一般的な業界標準オープンファイル形式のサポートにより、Iceberg とオープンレイクハウスの導入がさらに加速されます。

  • マテリアライズドビューのサポートによる分析の加速

CDP では、ユーザーは Iceberg テーブル上にマテリアライズドビューを作成できます。マテリアライズドビューは、分析クエリの実行を大幅に高速化するためのデータベースの業界標準プラクティスです。

  • パフォーマンスとスケーラビリティ

Cloudera は、I/O キャッシング、動的パーティション刈り込み、ベクトル化、Zオーダリング、Parquet ページインデックス、マニフェストキャッシングなど、大規模データセットのIceberg クエリパフォーマンスとスケーラビリティのために CDP で独自の機能を開発しました。

IcebergテーブルでのACIDトランザクションの一般提供

CDP での Apache Iceberg のサポートを開始して以来、Apache では新しいリリースの開発が進められてきました。Apache Iceberg  バージョン0.14.1 (別名Apache Iceberg v2)  は、行レベルの削除や更新などのデータ操作言語 (DML) 操作をサポートしています。CDPのIceberg v2 の一般提供により、ユーザーは複数のエンジンを同時に使用して同じデータにアクセスする場合でも、Iceberg テーブルでトランザクションの一貫性を維持できるようになりました。Iceberg v2 では、直列化分離と楽観的並行制御により、読み取り一貫性と複数エンジン/ユーザーの同時書き込みを維持しながら、データにアクセスして処理できます。DML 用に開発された DELETE と UPDATE SQL コマンドに加えて、MERGE SQL コマンドも提供され、ETL データパイプラインを簡素化するために行レベルの DML 操作を活用できます。

Cloudera Data Platformとの統合

CDP でサポートされるIceberg テーブルは、CDP 環境から集中管理され永続的なShared Data Experience (SDX) サービス (セキュリティ、メタデータ、監査) を自動的に継承します。

以下の SDX セキュリティ制御がCDP環境から継承されます:

  • 認証

CDP は企業の ID プロバイダーと統合し、すべてのユーザー ID の単一の情報源を維持します。

  • きめ細かな認証

適切な権限が付与されたユーザーのみが Iceberg テーブルとそれらのテーブルに格納されたデータにアクセスできるようにします。

  • 監査

Apache Ranger は、さまざまなパラメータでのフィルタリングを含む、アクセス監査履歴とレポートデータを収集するための集中化されたフレームワークを提供します。

  • メタデータ管理

Apache Atlas は、サービスが特定の操作を実行する際にメタデータを収集するサービスを提供します。Atlas を使用して、Iceberg テーブルに関するデータのさまざまな側面とそれらの関係を見つけ、整理し、管理できます。これにより、データスチュワードシップと規制遵守のさまざまなユースケースが可能になります。

まとめ

CDP における Apache Iceberg の Cloudera 統合は、このモダンなテーブル形式の革新に取り組むコミュニティに参加しながら、新しい機能強化から引き続き恩恵を受けています。マルチクラウド展開、ACID 準拠、強化されたマルチファンクション分析などの新機能により、モダンなデータウェアハウス、データレイク、AI/ML、データサイエンスなど、進化し続ける要件に対応するマルチクラウドオープンデータレイクハウスの実装が加速されます。

その他のリソース:

 

また、Cloudera DataFlow (CDF) 、Cloudera Data Warehouse (CDW) 、Cloudera Data Engineering (CDE) 、Cloudera Machine Learning (CML) を、60日間の無料トライアルを提供しております。CDPのApache Icebergについて直接話し合いの場をご希望の場合は、アカウントチームにお知らせいただくか、お問い合わせください。

本ブログのその他筆者:  Manish MaheshwariPeter AbledaNavita SoodImran RashidPriyank PatelMichael KohsAshish ShahDavid Dichmann,  Joseph Niemiec

 

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。