by Wim Stoop
この記事は、2024/3/5 に公開された「A Closer Look at The Next Phase of Cloudera’s Hybrid Data Lakehouse」の翻訳です。
人工知能 (AI) は、あらゆるビジネスを再構築しようとしています。Cloudera の調査によると、米国では、組織の3分の1以上 (36%) が AI 導入の可能性を探っている初期段階にあります。AI が台頭してきたとはいえ、その導入は一部の企業にとっては難しいものがあります。AI、そしてあらゆる分析は、そのベースとなるデータがあってこそですが、これが問題なのです。AI を動かすために必要な環境全体にわたるデータは、多くの場合バラバラでサイロ化されており、大半の企業がアクセスと収集に苦慮しています。そして、期待したビジネス洞察と価値を達成できないでいます。分散データインフラ、ガバナンス、進化するセキュリティ環境といった独自の課題に直面している企業は、AI を迅速にフル活用するための適切なサポートが必要です。
Cloudera のお客様のデータ、AI、分析のニーズに対応するため、オープン・データ・レイクハウスの次のフェーズをご紹介します。Cloudera は現在、クラウドとオンプレミス向けに Apache Iceberg を使用したオープンなデータレイクハウスを提供する唯一のプロバイダーです。そして、これはプラットフォームにおいて重要なマイルストーンです。IDC によると、現在、世界で管理されているエンタープライズ・プロダクション・データの約半分はオンプレミスです。Cloudera プラットフォームの最新リリースでは、クラウドと同じオープン・データ・レイクハウスの機能をデータセンターに導入するための、他に類を見ない一連の機能を提供します。このプラットフォームは、機密性が高く、かつ重要な企業データを管理しながら、その利用から最大の価値を引き出すという複雑な課題に対応する準備が整っています。
このアップデートに含まれる最もインパクトのある3つの機能について、さらに深く掘り下げてみたいと思います。
Apache Iceberg
Cloudera プラットフォームへの Apache Iceberg サポートの追加は、企業がミッションクリティカルなデータを AI に適用し、最もエラーの発生しやすいプロセスに対処し、新たなユースケースの創出、全体的なパフォーマンスの向上、そしてコストの削減を可能にします。Iceberg はオープンテーブル形式を提供することで、企業がオンプレミス環境で AI をデータに活用できるようにしています。このアプローチにより、Spark、Flink、Impala、NiFi といった新しいコンピュートエンジンが加わり、Iceberg 内でデータセットへの同時アクセスと処理が可能になります。
タイムトラベル、スキーマの進化、合理化されたデータディスカバリーなどの組み込み機能により、Iceberg はデータチームがデータの完全性を維持しながらデータレイク管理を強化できるようにします。データレイクハウスにおけるスキーマのインプレース進化や ACID トランザクションのようなものは、規制コンプライアンスを達成し、一般データ保護規則 (GDPR) のようなポリシーを遵守しようとする組織にとって重要な要素です。強力なプラットフォーム・データ・セキュリティとガバナンスレイヤーである Shared Data Experience (SDX) は、クラウドと同様にデータセンター内にあるオープン・データ・レイクハウスの基本部分です。
Apache Ozone
AI やその他の高度な分析の規模が拡大し続ける中で、パフォーマンスとスケーラブルなデータストレージもそれに合わせて拡大する必要があります。データセンター向けに特化した Apache Ozone は、より大きなスケーラビリティを低コストで提供し、企業がより大きなビジネス価値を推進できるよう支援します。Cloudera プラットフォームの最新アップデートでは、新機能により、顧客はより高いセキュリティを取り入れ、企業の即応性を強化するために必要なツールを手に入れることができます。最新世代のプラットフォームには、レプリケーションの改善、ボリュームのクォータの改善、クラウドネイティブアーキテクチャを容易にするバケット、スナップショットといった Ozone の機能が含まれており、バケットやボリュームレベルでのデータ保存もサポートできるようになりました。
ダウンタイムなしのアップグレード
Iceberg と Ozone の改良に加え、このプラットフォームはゼロ・ダウンタイム・アップグレード (ZDU) です。ZDU は、組織にとってより便利なアップグレードの手段です。ローリングアップグレードが HDFS、Hive、HBase、Kudu、Kafka、Ranger、YARN、Ranger KMS でサポートされるようになりました。ZDU は、お客様がワークフローの中断を最小限に抑え、最終的に長くてコストのかかるダウンタイムを短縮、あるいは無くすことを保証します。
ZDU を追加することで、ワンステージアップグレードや大規模クラスタの自動アップグレードなどの機能により、生産性を強力に向上させることができます。また、まだダウンタイムが予想されるプラットフォームコンポーネントについては、このアップデートにより、Cloudera Manager を通じて最適化され、迅速に再起動できるようになります。これは、Queue Manager のようないくつかのサービスが、最初にダウンし、最後に再起動するものであった以前のバージョンに比べ、重要な改善点です。これらのサービスは、ZDU の開始と同時に、数分で再開できるようになりました。
AI は、企業データから最大のビジネス価値を生み出すための重要な要素として、急速にその地位を固めつつあります。しかし、その価値に到達するには、データと分析が最も適している環境で活用することを意味します。それが Cloudera の特別なところでもあります。Cloudera プラットフォームは、一貫したデータガバナンスとセキュリティを維持しながら、インフラストラクチャを超えて展開できるポータブルでクラウドネイティブな分析を提供します。クラウド向けに加えて、データセンター向けの提供も開始しています。
次世代 Cloudera Data Platform for Private Cloud の詳細はこちらをご覧ください。