Cloudera Data Platform の Apache Iceberg で、マルチクラウドのオープンレイクハウスを実装する

Cloudera Data Platform の Apache Iceberg で、マルチクラウドのオープンレイクハウスを実装する

by Bill ZhangShaun AhmadianZoltán Borók-NagyVincent Kulandaisamy
この記事は、2022/12/15に公開された「Implement a Multi-Cloud Open Lakehouse with Apache Iceberg in Cloudera Data Platform」の翻訳です。

Cloudera Data Platform (CDP) で Apache Iceberg の一般提供を発表して以来、Teranet 社などのCloudera のお客様は、すべての分析ワークロードに対応するデータプラットフォームの将来性を保証するオープンレイクハウスを構築しています。Cloudera のパートナーも、CDP における Apache Iceberg を活用しています。例えば、Modak Nabu 社は、顧客がペタバイト規模のデータの取り込み、キュレーション、消費を加速させることを支援しています。今回は、Cloudera が CDP に Apache Iceberg を統合し、マルチクラウドのオープンデータレイクハウスの実装を加速させるための新たな進歩をご紹介します。

CDP パブリッククラウドによるマルチクラウド展開

 Cloudera Data Platform table

CDP の Apache Iceberg でマルチクラウド機能が利用できるようになりました。Gartner 社がパブリッククラウドのユーザーを対象に行った最近の調査によると、81%の組織が2社以上のパブリッククラウドプロバイダーと連携しています。CDP を利用することで、お客様はストレージ、コンピュート、アクセスなど、クラウドが提供するすべての自由度を得ることができ、ベンダーロックインを回避し、最善の組み合わせでのソリューションを利用することが可能となります。Kubernetes (K8s) とコンテナ化技術を活用し、AWS、Azure、Google Cloud など複数のクラウドに一貫してアプリケーションをデプロイできます。また、一度作成すればどこでも実行でき、クラウドからクラウドへ簡単に移動できるポータビリティ性があります。異なるクラウドサービスプロバイダー間で動作する CDP の共通インターフェースにより、一貫したセキュリティ、ガバナンス、トレーサビリティを確保しながら、データのサイロ化を解消し、Apache Iceberg ベースのワークロードを導入環境間で摩擦なくシームレスに移動させることができます。

高度な機能

CDP における Apache Iceberg の新機能により、マルチクラウドオープンレイクの実装を加速させることができます。

  • 強化された多機能分析

すでにお客様にご利用いただいている Cloudera Data Warehouse (CDW)、Cloudera Data Engineering (CDE)、Cloudera Machine Learning (CML) などの CDP の主要データサービスに加え、Cloudera Data Flow (CDF) とCloudera Stream Processing (CSP) を Apache Iceberg テーブルフォーマットと統合し、ストリーミングデータを大規模かつスムーズに処理できるような環境を提供します。これらの CDP データサービスの計算エンジンは、Cloudera Shared Data Experience (SDX) が提供する共有セキュリティとガバナンスにより、Iceberg テーブルのデータセットに同時にアクセスし、処理することができます。

Cloudera SDX Iceberg Tables

  • 高速テーブル移行

インプレーステーブル移行では、データファイルを再生成する必要がないため、迅速に Iceberg テーブルへの変換を行うことができます。メタデータのみが再生成されます。新たに生成されたメタデータは、下図のようにソースデータファイルを指します。 

 Table Migration In-Place

  • テーブルロールバックによるデータ品質

データ品質に問題があることが明らかになった場合、テーブルのロールバックを使用して、既知の高品質な状態に戻すことができます。データを既知の良好な状態に素早く復元し、より迅速かつ容易に修正措置を実行できます。

  • テーブルのメンテナンス性向上による性能と管理性の維持 

古いスナップショットの有効期限切れやメタデータの削除、小さなファイルを結合してデータ処理を効率化するコンパクションなどの新しいテーブルメンテナンス機能を使って、Iceberg テーブルのパフォーマンスと全体的な管理性を向上させることができます。

  • ORC オープンファイル形式対応

CDP の Iceberg は、オープンファイル形式 Parquet のサポートに加え、最新リリースでは ORC もサポートするようになりました。これらの一般的な業界標準のオープンファイル形式をサポートすることで、Iceberg とオープンレイクハウスの導入をさらに加速させることができます。

  • マテリアライズドビューのサポートによる分析の高速化

CDP では、ユーザーは Iceberg テーブルの上にマテリアライズドビューを作成することができます。マテリアライズドビューは、データベースの業界標準として、分析クエリの実行を大幅に高速化するためのプラクティスです。  

  • パフォーマンスと拡張性

Cloudera は、I/O キャッシング、動的パーティションプルーニング、ベクトル化、Zオーダリング、Parquetページインデックス、マニフェストキャッシングなど、大規模データセットの Iceberg クエリのパフォーマンスと拡張性のために CDP で独自の機能を開発しました。

Iceberg テーブルを使用した ACID トランザクションの一般提供

CDP でApache Icebergのサポートを開始してから、より新しいリリースの開発が Apache で行われています。Apache Iceberg バージョン 0.14.1 (別名Apache Iceberg v2) は、行レベルの削除や更新などのデータ修正言語 (DML) 操作をサポートしています。 CDP の Iceberg v2 の一般提供により、ユーザーは複数のエンジンを使って同じデータに同時にアクセスする場合でも、Iceberg テーブルのトランザクション一貫性を維持することができます。Iceberg v2 では、Serializableアイソレーションと楽観的並行性制御により、読み取り一貫性とマルチエンジン/ユーザー同時書き込みを維持しながら、データにアクセスし処理することが可能です。DML 用に開発された DELETE、UPDATE SQL コマンドに加え、行レベルの DML 操作を利用し、ETL データパイプラインを簡素化する MERGE SQL コマンドも提供されています。  

Cloudera Data Platformとの統合

CDP でサポートされる Iceberg テーブルは、CDP 環境からセキュリティ、メタデータ、監査といった一元的かつ持続的なShared Data Experience (SDX) サービスを自動的に引き継ぎます。 

以下の SDX セキュリティコントロールは、CDP 環境から継承されます。

  • 認証

CDP は、企業のアイデンティティプロバイダーと統合し、すべてのユーザー ID にとっての信頼できる唯一のソースを維持します。

  • きめ細かな認可 

適切な権限を与えられたユーザーのみが、Icebergテーブルとそのテーブルに保存されているデータにアクセスできるようにします。

  • 監査 

Apache Ranger は、さまざまなパラメーターでのフィルタリングを含む、アクセス監査履歴とレポート データを収集するための集中化されたフレームワークを提供します。 

  • メタデータ管理 

Apache Atlas は、サービスが特定の操作を行った際にメタデータを収集するサービスを提供しています。Atlas を使用すると、Iceberg テーブルに関するさまざまなデータの検索、整理、管理、およびそれらのデータの相互関係の確認ができます。これにより、さまざまなデータスチュワードシップや規制コンプライアンスのユースケースが可能になります。

まとめ

Multi-Cloud Open Lakehouse Powered y Iceberg in CDP

Cloudera の CDP における Apache Iceberg の統合は、最新のテーブルフォーマットを革新するコミュニティに参加することで、新たな強化の恩恵を受け続けています。マルチクラウドデプロイメント、ACID 準拠、多機能アナリティクスの強化などの新機能により、マルチクラウドのオープンデータレイクハウスへの実装を加速し、最新のデータウェアハウス、データレイク、AI/ML、データサイエンスなど、進化し続ける要件に対応しています。

もっと詳しく知りたい方はこちら

ご興味がある方は、Cloudera DataFlow  (CDF)、Cloudera Data Warehouse (CDW)、Cloudera Data Engineering (CDE)、Cloudera Machine Learning (CML) の60日トライアル、またはCDPのテストドライブをお試しください。また、CDP 上の Apache Iceberg についてより詳細を知りたい方は、貴社の担当アカウントチームにお知らせいただくか、弊社まで直接ご連絡ください。コメント欄へのフィードバックもお待ちしております。

この記事への他の寄稿者:  Manish MaheshwariPeter AbledaNavita Sood , Imran RashidPriyank PatelMichael KohsAshish ShahDavid Dichmann,  Joseph Niemiec

 

モダンデータウェアハウスが直面する3つの最大の問題

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。