データレイクハウスを強化:CDPにおけるApache Iceberg

by by Bill Zhang, Shaun Ahmadian, and Cloudera Contributors
この記事は、2022/06/30に公開された「Supercharge Your Data Lakehouse with Apache Iceberg in Cloudera Data Platform」の翻訳です。

Cloudera Data Platform (CDP) で Apache Iceberg の一般提供を開始いたしました。Icebergは、Apache Software Foundationで開発された100%オープンなテーブルフォーマットであり、これによってベンダーロックインを回避できます。今回の一般提供開始の発表は、Cloudera Data Platform(CDP)内の主要データサービスCloudera Data Warehousing(CDW)、Cloudera Data Engineering(CDE)、Cloudera Machine Learning(CML)を含む)で動作するIcebergを対象としています。これらのツールにより、アナリストやデータサイエンティストは、ツールや分析エンジンを選択し、同じデータに対して簡単にコラボレーションを行うことができるようになります。CDPの一部としてIcebergを活用するために、企業が行うべき作業はありません。ベンダーロックインの心配もなく、データから洞察を得るために、ツールやクラウドをまたいでデータを移動させたり、不必要なデータ変換ももう必要ありません。

CDPは、オープンデータレイクハウスを提供する初のハイブリッドデータプラットフォームとして、マルチクラウドやオンプレミスで、ストリーミングデータとクラウドネイティブなオブジェクトストアの両方に、ペタバイト規模の多機能分析を可能にします。これにより、お客様はお好みの分析ツールを自由に選択することができます。Clouderaのハイブリッドデータのビジョンによってオープンデータレイクハウスを採用する企業は、データの拡張性を気にすることなく、オンプレミス環境とあらゆるパブリッククラウドとの間でアプリケーションの相互運用性と移動性を簡単に手に入れることができます。CDPに元から組み込まれているShared Data Experience (SDX) は、お客様がすべてのデータで共通のメタデータ、セキュリティ、およびガバナンスモデルを利用することを可能とします。

Apache IcebergCloudera Data Platformを連携させる理由

Clouderaでは、オープン性と相互運用性に対する方針を明確に打ち出しています。このことが、Apache Hive、Apache Spark、Apache Nifi、Apache Impala、Apache YuniKornなどのコミュニティにおけるイノベーションへの大きな貢献につながっています。2022年2月、CDP内のテクニカルプレビューとしてApache Icebergを導入しました。

過去10年間、Cloudera は Hive テーブルフォーマットと Hive ACID の導入により、データレイクの多機能分析を可能にしてきました。レイクハウスのパターンはクラウドに進化しましたが、依然としてプライマリエンジンに縛られたテーブルフォーマットであり、多くの場合単一のベンダーが動かすことには変わりはありません。一方、企業はデータレイクにおいて、特定のベンダーに縛られることなく、拡張性と柔軟性に優れた分析エンジンとサービスを求め続けています。企業は、ビジネスのスピードに合わせて進化する最新のデータアーキテクチャを求めており、それに対して、初のオープンデータレイクハウスで、サポートできることを嬉しく思います。

CDPに含まれるようになったApache Icebergは、最新のデータアーキテクチャに次のような大きなメリットをもたらします。

  • スキーマやパーテーションの変更を含むインプレーステーブルの進化を、1週間かかる手間のかかるプロセスではなく、1つのコマンドで実行可能
  • ポイントインタイムクエリによるタイムトラベルで、フォレンジックの可視化と法規制への準拠を実現
  • エッジからAIまで、エンドツーエンドのデータライフサイクルのニーズを実現する多機能アナリティクスの同時実現
  • パフォーマンスを向上。積極的なパーティショニングによるパフォーマンス向上により、大規模なデータセットの取り扱いが可能に

CDPの図

Iceberg活用の最速かつ最も簡単な方法を提供するCDP

IcebergはCDPのSDXレイヤーに統合されているので、お客様はIcebergを簡単に使用でき、オープンテーブル形式の生産性とパフォーマンスのメリットをすぐに手に入れることができます。お客様は、基礎となる大規模なデータセットに一切触れることなく、単一のコマンドでメタデータのみの移行を行うことができます。これは、導入への大きな促進剤となります。

データレイクハウスを強化しオープン化する

データレイクハウスは、Cloudera や私たちのお客様にとって新しいものではありません。例えば、IQVIAはClouderaを使用して、Oracle、IBM Netezza、Teradataシステムなど世界各地の250のデータウェアハウスから2ペタバイトを超えるデータを、分析を実行するグローバルなマルチテナントのデータレイクにまとめています。IQVIAは5年以上前から、Hiveのオープンテーブル形式とClouderaの統合済み多機能分析プラットフォームを利用しています。しかし、現在のデータレイクハウスのアーキテクチャパターンでは十分ではありません。企業には、複数の高度な分析ユースケースを提供できる、完全なデータインモーションと運用データベースを備えた、データライフサイクル全体にわたるプラットフォームが必要だと考えています。これがオープンデータレイクハウスであり、ハイブリッドデータプラットフォームで提供できるのはClouderaだけなのです。

CPDとレイクハウスの解説図

CDP の Apache Iceberg により、Cloudera はデータとコミュニティのオープンなエコシステムと、エンタープライズ向けのハードニングとパフォーマンスの組み合わせで、データレイクハウスを超えるパフォーマンスを提供できます。テクニカルプレビューに参加したお客様からは、以下のようなご感想をいただいています。

  • Teranet社:「レイクハウスを構築するために、主要なオープンソースのストレージフレームワークをすべて評価した結果、100オープンで豊富な機能を持ち、コミュニティとの連携が強いApache Iceberg を選びました。Iceberg の導入により、CDPはオープンデータレイクハウスアーキテクチャをサポートし、分析ワークロードのためのデータプラットフォームを将来にわたって利用できるようになりました。私たちは、Iceberg の最初のユースケースとして変更データの取得を選択しました。データレイクを頻繁に更新することで、レポートとビジネスインテリジェンスを加速させ、ビジネスチームが最新の洞察にアクセスできるようにすることを目指しています。また、パーティションの進化は、大規模なデータエンジニアリングとBIワークロードの優れたクエリ性能を保証する、当社にとって重要な機能です。」Terane社、システムアーキテクト、Steve Brackenbury氏
  • Modak Nabu社:「ModakはClouderaとのパートナーシップにより、AI、機械学習、SQL、ビジネスインテリジェンスのレポート、ダッシュボードなど、あらゆる分析ユースケースに対して共通のセキュリティとガバナンスを提供しながら、すべてのデータを統一するレイクハウスアーキテクチャの導入を支援することが可能になります。Modak NabuをClouderaのCDP Icebergテーブルフォーマットで認証することにより、企業のお客様は、あらゆるデータのペタバイト規模でのデータ取り込み、キュレーションを行い、消費を加速させ、データ管理の簡素化とデータアクセスの高速化を実現できます。」Modak Analytics社、イノベーション責任者、Daniel Mantovani氏

CDPによるパーティションの進化機能を活用し、データ上でより細かいパーティションを使用することで、10倍以上のクエリパフォーマンスのメリットを実現しています。この場合、基礎となるデータを再生成したり変更したりする必要はありません。

Apache Icebergの統合により、CDPの能力はデータレイクハウスを超えたところにまで高まります。CDPは、ハイブリッドクラウドやマルチクラウドで、あらゆるデータをあらゆる場所で扱うことができます。私たちは、お客様のデータが生まれた場所、到着した場所、そして使用される場所でサポートできます。

さらに詳細を知りたい方は、

  • Emerging Data Architecturesについてのオンラインセミナー(英語)対談:ClouderaのCTOであるRam Venkatesh、Tabularの共同設立者兼CEOであるRyan Blue氏、NetflixのエンジニアリングマネージャーであるAnjali Norwood氏による、Apache Icebergの視点による、Icebergとオープンデータレイクハウスの利点に関する対談会話をご覧ください。
  • データレイクハウスの未来とオープン性についてはこちらでご確認ください。

Cloudera Data Warehouse (CDW)、Cloudera Data Engineering (CDE)、Cloudera Machine Learning (CML)の60日間トライアル、またはCDPのテストドライブも用意しています。CDPのApache Icebergについてのお話にご興味がある方は、担当のアカウントチームにお知らせください。また、何かありましたらBlogのコメント欄でご意見をお聞かせください。

本記事の執筆の協力者: Navita Sood, Peter Vary, Zoltan Borok-Nagy, Imran Rashid, Justin Hayes, Priyank Patel

E-book: IoTによる デジタル トランスフォーメーション

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。