by Vineeth Varughese
この記事は、2023/09/14 に公開された「Revolutionize Your Data Experience With Cloudera on Private Cloud」の翻訳です。
チャットボット、生成 AI、大規模言語モデル (LLM) がビジネスを席巻する AI 革命の時代において、企業の認識で急速に広まっていることがあります。それは、機密データや商業上の極秘データを保護するための強力なデータ管理とプライバシーの必要性です。そして同時に、コンテキスト固有の AI 洞察のためには、このデータへのアクセスを許可しなければならないということです。多くの企業は、オンプレミスソリューションが提供する固有のプライバシーに注目し、自社のデータセンター内で LLM の力を活用しようとしています。そんな中で、オンプレミスのデータプラットフォームを支えるベンダーとしても、Cloudera は、大きな力を発揮することができます。
当社の最新リリース (CDP Private Cloud Base 7.1.9) は、Cloudera のオンプレミスのオープンデータレイクハウスプラットフォームの基盤です。強力なデータ管理を備えた包括的な分析を実現し、迅速で実用的な洞察と「信頼できる AI 」をご利用いただくために、企業が信頼できるエンタープライズデータを大規模に提供できるようにします。その真の強みは、企業データとワークロードを、自社データセンターの保護された壁 (時には完全にエアギャップされている) による固有のプライバシーとセキュリティで管理し、選択されたワークロードに対してコスト効率の高い運用を行うことにあります。Cloudera のオープンデータレイクハウスの秘策は、最も急速に成長しているテーブルフォーマットである Apache Iceberg です。これが柔軟性と俊敏性をもたらし、データを扱う人は好みのツールやエンジンを使用して、同じデータに対して多機能分析を行うことができるのです。また、迅速な意思決定と「信頼できる AI」のための、信頼できるデータも保証します。
今回のリリース内容
このリリースで提供された110以上の機能とイノベーションは、お客様のオンプレミスデータエクスペリエンスに革命をもたらすよう設計されています。Cloudera の製品管理担当上級副社長である Paul Codding がリリースの要点を説明していますので、本ブログの上部にあります動画をご視聴ください。また、全機能の詳細については、リリースの概要をご覧ください。今回のリリースでは、4つの主要カテゴリーにわたって新機能とイノベーションをご提供します。
- このリリースは、Apache Iceberg をプライベートクラウドに搭載し、完全な機能を備えたオープンデータレイクハウスを提供します。これは私たちの「どこでも Iceberg」というビジョンの実現といえます。パブリッククラウド、プライベートクラウド、オンプレミスインフラストラクチャなど、データが存在する場所を問わず、真のハイブリッドエクスペリエンスの中で、オープンデータレイクハウスを柔軟に展開できるようになりました。この Apache Iceberg の統合により、データレイクに堅牢なデータウェアハウス機能が導入された他、ACIDトランザクションがサポートされ、様々なコンピューティングオプションを利用して複数のチームによる同時データアクセスが可能になりました。その結果、データサイロの排除、ETL パイプラインの簡素化、ストレージコストの大幅な削減を実現します。これらすべてが、複数のユースケースに対応する単一のデータコピーのおかげです。Cloudera のオープンデータレイクハウスには、スキーマをオンザフライで変更できる機能、履歴データの管理とロールバック、大規模データに対する高性能分析の実績など、強力な新機能が多数追加されています。エンジンに依存しないテーブルフォーマットである Iceberg を採用することで、データ管理の複雑さが大幅に軽減され、アナリストやデータサイエンティストの生産性が向上します。今こそデータを活用し、新しいデータサイエンスと分析のプロジェクトを迅速に開始する時です。
- IDC* によると、現在、世界の企業生産データの半分以上はオンプレミスにあります。これは、クラウドコンピューティングの台頭にもかかわらず、組織が依然として従来のストレージ方法に大きく頼っていることを示しています。ハイブリッドストレージパラダイムのオンプレミスストレージを最新化するために、Apache Ozone を活用した高性能、高密度の最新のオブジェクトストレージをオンプレミスで強化し続けます。そして低コストで大幅に優れたスケーラビリティを実現し、最新のデータワークロードの旺盛なデータ消費ニーズに対応します。このリリースでは、改良された高可用性、スナップショット、ユーザークォータ、より広範な統合をサポートしています。
- データプラットフォームを次のバージョンにアップグレードするのを楽しみにしている人はいないと思います。そのため、このリリースは長期サポートリリース (LTS) となり、今後、数年間はメジャーアップグレードの心配をすることはありません。LTS リリースについては、こちらをご覧ください。LTS リリースは、安定性を念頭に設計され、以前のすべてのリリースの革新性を利用して、累積的に構築されています。つまり、既存のワークロードを安全に継続することができ、長期にわたって保管することもできます。
- 最近のバージョンからのアップグレードの場合でも、古いプラットフォームからの移行の場合でも、このリリースへの移行は以前のどのリリースよりも簡単です。当社は、よりシンプルなアップグレードエクスペリエンスのために、自動化ツールとサービスのスイートを提供することに注力しています。より簡単なアップグレードと高い可用性に対する揺るぎないコミットメントは、今後のリリースに Zero Downtime Upgrade (ZDU) 手法を導入することでより対応しやすくすることにあります。ZDU については、今後のブログでご紹介します。
お客様が CDP を利用して構築し続けている最先端のユースケースや、革新的なビジネスソリューションを見て、いつも身の引き締まる思いです。このリリースにより、データワークロードの開発を加速し、最も困難な課題を解決するための支援をいたします。
革新的な AI アプリケーションの構築を検討しているものの、SaaS の LLM が、企業に合わせて微調整するために商業的極秘データをどのように使用するか不安な面もあるかと思います。そんな時は、Llama 2、Falcon、Platypus 2 などのオープンソースの LLM を使用して、データを安全に保管し、モデルの所有権を保持することも検討できます。また、LLM モデルや推論をパブリッククラウドで実行することにコストがかかることを懸念している場合、CDP を利用することで、データセンター固有のプライバシーとセキュリティを十分に活用し、オープンソースモデルを予測のできる費用でオンプレミスのデータエコシステムと統合することができます。CDP のオンプレミスで稼働している強力な生成 AI のユースケースをご紹介します。
- 文書要約: 豊富な企業データを使って、文書を自動的に要約し、手作業のワークフローをスピードアップする、コンテキストに特化した AI アプリケーションを構築します。
- 顧客センチメント分析: 顧客からのフィードバックを分析し、意見や嗜好を自動的に把握します。
- 複雑な機械の予知保全: AI を使って機械が故障しそうな時期を予測することで、予防的にメンテナンスを実施し、コストのかかるダウンタイムを回避することができます。
- コード補完最適化: AI を使ってコード補完を最適化し、より速く、より正確にします。
- 不正の検出と防止: オープンデータレイクハウスのパワーを活用し、リアルタイムで取引を監視し、不正を検知するだけでなく防止します。
データライフサイクル全体にわたる顧客のユースケースは増え続けており、その可能性はまさに無限です。Cloudera でプライベートクラウドを構築されるお客様の革新的な新しいユースケースと、それらがお客様の組織が持つ力を解き放つのにお役立ていただけることを楽しみにしています。
次のステップ
リリースの内容や詳細について知りたい方は、リリースの概要をご覧ください。 今すぐにでもアップグレードを始めたいという方は、こちらをご確認ください。
最後に、役に立つと思われる追加リソースをご紹介します。
*出典:IDCクラウドデータ管理調査、2021年および IDC Global DataSphere 2023年