by Bill Zhang, Shaun Ahmadian, Zoltán Borók-Nagy, and Vincent Kulandaisamy
この記事は、2022/11/15 に公開された「Implement a Multi-Cloud Open Lakehouse with Apache Iceberg in Cloudera Data Platform」の翻訳です。
Cloudera Data Platform (CDP) におけるApache Icebergの一般提供を発表して以来、Teranet 社のようなClouderaのお客様は、すべての分析ワークロードに対応する将来性のあるデータプラットフォームを構築するために、オープンレイクハウスを構築してきました。Cloudera のパートナーも CDP の Apache Iceberg から恩恵を受けています。例えば Modak Nabu 社は、ペタバイト規模でのデータ取り込み、キュレーションや消費を加速させるために、エンタープライズ顧客を支援しています。今回、Cloudera の CDP での Apache Iceberg の統合におけるいくつかの新しい進歩についてお知らせします。これによって、マルチクラウド・オープン・データレイクハウスの実装を加速できます。
CDPパブリッククラウドによるマルチクラウド展開
CDP における Apache Iceberg において、マルチクラウド機能が利用可能になりました。パブリッククラウドユーザーを対象とした最近の Gartner調査によると、81%の組織が2つ以上のパブリッククラウドプロバイダーと連携しています。CDP を使用することで、顧客はストレージ、コンピュート、アクセスをクラウドが提供する自由度を持って展開でき、ベンダーロックインを避け、最良のソリューションを活用できます。Kubernetes (K8s) とコンテナ化技術を活用することで、AWS、Azure、Google Cloud を含む複数のクラウド間でアプリケーションを一貫して展開、「一度書いて、どこでも実行」し、クラウド間を容易に移動できるポータビリティを実現できます。異なるクラウドサービスプロバイダー間で機能する共通のインターフェースをCDP で使用することで、一貫したセキュリティ、ガバナンス、トレーサビリティを確保しながらデータサイロを解消し、Apache Iceberg ベースのワークロードを展開環境間でシームレスに移動させることができます。
高度な機能
CDP における Apache Iceberg の新機能により、マルチクラウドオープンレイクハウスの実装を加速できます。
- 強化されたマルチファンクション分析
顧客がすでに使用している Cloudera Data Warehousing (CDW) 、Cloudera Data Engineering (CDE) 、Cloudera Machine Learning (CML) などの CDP の主要なデータサービスに加えて、Cloudera Data Flow (CDF) と Cloudera Stream Processing (CSP) を Apache Iceberg のテーブル形式と統合しました。これにより、ストリーミングデータをシームレスかつ大規模に処理できます。これらのCDPデータサービスのコンピュートエンジンは、Cloudera 独自の Cloudera Shared Data Experience (SDX) が提供する共有セキュリティとガバナンスにより、Iceberg テーブル内のデータセットに同時にアクセスして処理できます。
- 驚くほど高速なテーブル移行
インプレーステーブル移行により、データファイルを再生成する必要がないため、Iceberg テーブルへの変換を迅速に行うことができます。メタデータのみが再生成されます。新しく生成されたメタデータは、以下の図に示すように、ソースデータファイルを指し示すことになります。
- テーブルロールバックを使用したデータ品質
データ品質の問題が明らかになった場合、テーブルロールバックを使用して既知の高品質な状態に戻すことができます。データを既知の良好な状態に迅速に復元し、より迅速かつ容易に是正措置を講じることができます。
- 改善されたテーブルメンテナンスによるパフォーマンスと管理性の維持
古いスナップショットの有効期限を設定してそのメタデータを削除したり、小さなファイルを結合してより効率的なデータ処理を行うコンパクション機能など、新しいテーブルメンテナンス機能を使用して、Icebergテーブルのパフォーマンスと全体的な管理性を向上させます。
- ORCオープンファイル形式のサポート
Parquet オープンファイル形式のサポートに加えて、CDP の Iceberg は最新リリースでORC もサポートするようになりました。これらの一般的な業界標準オープンファイル形式のサポートにより、Iceberg とオープンレイクハウスの導入がさらに加速されます。
- マテリアライズドビューのサポートによる分析の加速
CDP では、ユーザーは Iceberg テーブル上にマテリアライズドビューを作成できます。マテリアライズドビューは、分析クエリの実行を大幅に高速化するためのデータベースの業界標準プラクティスです。
- パフォーマンスとスケーラビリティ
Cloudera は、I/O キャッシング、動的パーティション刈り込み、ベクトル化、Zオーダリング、Parquet ページインデックス、マニフェストキャッシングなど、大規模データセットのIceberg クエリパフォーマンスとスケーラビリティのために CDP で独自の機能を開発しました。
IcebergテーブルでのACIDトランザクションの一般提供
CDP での Apache Iceberg のサポートを開始して以来、Apache では新しいリリースの開発が進められてきました。Apache Iceberg バージョン0.14.1 (別名Apache Iceberg v2) は、行レベルの削除や更新などのデータ操作言語 (DML) 操作をサポートしています。CDPのIceberg v2 の一般提供により、ユーザーは複数のエンジンを同時に使用して同じデータにアクセスする場合でも、Iceberg テーブルでトランザクションの一貫性を維持できるようになりました。Iceberg v2 では、直列化分離と楽観的並行制御により、読み取り一貫性と複数エンジン/ユーザーの同時書き込みを維持しながら、データにアクセスして処理できます。DML 用に開発された DELETE と UPDATE SQL コマンドに加えて、MERGE SQL コマンドも提供され、ETL データパイプラインを簡素化するために行レベルの DML 操作を活用できます。
Cloudera Data Platformとの統合
CDP でサポートされるIceberg テーブルは、CDP 環境から集中管理され永続的なShared Data Experience (SDX) サービス (セキュリティ、メタデータ、監査) を自動的に継承します。
以下の SDX セキュリティ制御がCDP環境から継承されます:
- 認証
CDP は企業の ID プロバイダーと統合し、すべてのユーザー ID の単一の情報源を維持します。
- きめ細かな認証
適切な権限が付与されたユーザーのみが Iceberg テーブルとそれらのテーブルに格納されたデータにアクセスできるようにします。
- 監査
Apache Ranger は、さまざまなパラメータでのフィルタリングを含む、アクセス監査履歴とレポートデータを収集するための集中化されたフレームワークを提供します。
- メタデータ管理
Apache Atlas は、サービスが特定の操作を実行する際にメタデータを収集するサービスを提供します。Atlas を使用して、Iceberg テーブルに関するデータのさまざまな側面とそれらの関係を見つけ、整理し、管理できます。これにより、データスチュワードシップと規制遵守のさまざまなユースケースが可能になります。
まとめ
CDP における Apache Iceberg の Cloudera 統合は、このモダンなテーブル形式の革新に取り組むコミュニティに参加しながら、新しい機能強化から引き続き恩恵を受けています。マルチクラウド展開、ACID 準拠、強化されたマルチファンクション分析などの新機能により、モダンなデータウェアハウス、データレイク、AI/ML、データサイエンスなど、進化し続ける要件に対応するマルチクラウドオープンデータレイクハウスの実装が加速されます。
その他のリソース:
- Icebergとオープンデータレイクハウスの利点について議論する英語版ウェビナー「Unifying Your Data: AI and Analytics on One Lakehouse」
- 「データレイクハウスの未来:オープン性」をお読みください。
- ミートアップ:Apache Iceberg: Looking Below the Waterline
また、Cloudera DataFlow (CDF) 、Cloudera Data Warehouse (CDW) 、Cloudera Data Engineering (CDE) 、Cloudera Machine Learning (CML) を、60日間の無料トライアルを提供しております。CDPのApache Icebergについて直接話し合いの場をご希望の場合は、アカウントチームにお知らせいただくか、お問い合わせください。
本ブログのその他筆者: Manish Maheshwari, Peter Ableda, Navita Sood, Imran Rashid, Priyank Patel, Michael Kohs, Ashish Shah, David Dichmann, Joseph Niemiec