by Venkat Rajaji
この記事は、2024/08/06に公開された「The Data Turf Wars are Over, But the Metadata Turf Wars Have Just Begun」の翻訳です。
ここ数年間、データリーダーは多くの議論を重ねていました。それは、どこに自社データを保存し、どのようなアーキテクチャーを導入して、非常に広範囲な分析のユースケースに対応するかについてです。独自のフォーマットやクエリエンジンを持つベンダーは売り込みを行い、何年もの間、市場は探りを入れ、データリーダーによる意思決定が行われていました。
意思決定の傾向で最も興味深いのは、ベンダーが多額のマーケティング費用をかけて、新たな最高のデータプラットフォームを構築したと顧客を説得しようとしたにもかかわらず、完全な勝者はいなかったということです。
多くの企業はパブリッククラウドを採用していますが、クラウドまたはシングルクラウドへすべてを移動させるとする企業は、これまで極めて少数です。多くは、マルチクラウドかハイブリット型を選択しています。そして、多機能分析の理想的なアーキテクチャーとしてのデータレークハウスには、明らかな機運はありますが、Apache Iceberg などのオープン・テーブル・フォーマットへの需要は、データリーダーが相互運用性とエンジンの自由度を重視していることを明確に示しています。もうデータのある場所は重要ではないのです。重要なのは、データを理解し、共有し、利用することを可能にする方法なのです。
目標は明確です。独自のフォーマットやベンダーによる囲い込みは過去のものです。これからはオープンデータなのです。そしてデータチームは、その未来を実現するために、新たなデータの縄張り争いである、メタデータ重視に移行していかなければなりません。
統合したメタデータのニーズ
オープンで分散型のアーキテクチャーには多くの利点がありますが、それぞれ課題があります。企業が分析と AI のためにデータ資産全体の統一されたビューを提供しようとしているため、データ チームには次のプレッシャーがかかっています。
- 技術系から非技術系の様々なデータ利用者にとって、簡単に利用し、発見でき、役立つようにする。
- データの正確性、首尾一貫性、質を向上させる。
- 利用可能性とパフォーマンスが高く、複数の実行エンジンとの相互運用性があるなどデータのクエリの効率を高める。
- 自社のアーキテクチャー全体に首尾一貫したセキュリティとガバナンスのポリシーを適用する。
- コストを管理しながら高いパフォーマンスを実現する。
従来、データ統合の解決策は、あるソースやシステムから他へのデータ移動やデータの複製でした。この手法の問題は、複製したデータや移動したデータにより、実質的には前述の5つの点すべてが困難になることです。コストは増加するのに、データもデータから得られる洞察も、管理したり信用したりすることがさらに難しくなるのです。
そのため、データ管理の新しい領域へと向かうことになりますが、これは分散型アーキテクチャーを管理するチームには極めて重要です。データの統合では十分ではありません。つまり、データチームはメタデータの統合が必要になるのです。
メタデータには2種類あり、両方ともデータのライフサイクルに不可欠な次のような機能を担います。
運用メタデータは、データチームの目標であるデータの保護、ガバナンス、処理、適切なデータ利用者へのデータ提供を支援するだけでなく、さらにそのデータに対するクエリの性能を維持します。データチームはこのメタデータをメタストアで管理します。
ビジネスメタデータは、多様な分析用にこのデータを発見して活用したいと思うデータ利用者を支援するメタデータです。このメタデータは文脈を提供するので、ユーザーは容易に探しているデータを発見し、利用し、分析することができます。ビジネスメタデータは、データカタログで管理します。
多くのソリューションでは、この2種類のメタデータのうち最低1つは適切に管理できますが、両方を管理できるソリューションは少数です。そして、オンプレミスやクラウドの環境からのビジネスメタデータと運用メタデータ、さらには複数の異なるツールやシステムからのメタデータを統合して、管理できるプラットフォームは非常に限られています。さらに、この全てを行うことのできる利用可能なツールや、エンタープライズ環境向けのこれらのソリューションの拡大に必要な、オートメーション化に対応できるものは存在しないに等しいのです。
Cloudera はオープンメタデータ上に構築する
Cloudera のオープン・データ・レイクハウスは Apache Iceberg 上に構築し、運用メタデータの管理を容易にします。Iceberg はメタデータをテーブル自体に保持しており、クエリの計画中にメタデータを検索する必要をなくし、パーティーションやスキーマ進化のような以前からの複雑なデータ管理作業を簡素化します。データチームは、Cloudera のオープン・データ・レイクハウスで、自社データの単独の物理コピーを蓄積して管理し、新たなデータ移動やデータの複製をなくして、あらゆるデータ利用者と分析のユースケースに対して、首尾一貫した正確なデータビューを確保します。
Cloudera は Iceberg 向けの REST カタログの仕様も支援し、テーブルのメタデータが常にオープンであり、サードパーティーの実行エンジンやツールによる利用が簡単であるようにします。多くのベンダーがメタデータの囲い込みに注力していますが、Cloudera は、クラウドやツールに依存しないため、利用者が選ぶ自由を持ち続けることができるようにしています。
また、Cloudera は同社のエコシステム外部のメタデータを利用し、追跡することに努めているので、データチームは、他の様々なプラットフォームやソリューションに蓄積されたデータなどのデータエステート全体を把握できるようになります。
ビジネスメタデータのオートメーション化はスケーリングを実現するための必須手段
運用メタデータは、一般的にシステムで生成され、Iceberg のテーブルに保持されますが、ビジネスメタデータは、通常、領域のエキスパートかデータチームが生成します。何百または何千ものデータソース、ファイル、テーブルを備えることの多いエンタープライズ環境では、こうしたデータセットを簡単に発見するのに必要な人的労力を拡大するのは不可能です。
Cloudera のビジョンは、データカタログの経験を拡大し、ビジネスメタデータを生成する手作業をなくすことです。利用者は生成 AI を活用することができるようになり、あらゆるデータセットが適切にタグ付けされ、分類され、発見しやすくなります。オートメーション化したビジネスメタデータにより、データ利用者とデータチームは、カタログが巨大であっても探しているデータを容易に発見でき、見落とされるデータセットはなくなります。
セキュリティとガバナンスの統合
データチームは、全てのデータ利用者の様々なデータ利用に対するニーズと、中央型セキュリティおよびガバナンスとのバランスが取れるように努めています。この作業は分散型の環境や、データが元のソースから別の先へと移動する状況において、さらに複雑化します。
Cloudera Shared Data Experience (SDX) は、分散型環境全体におけるメタデータを追跡するために、セキュリティとガバナンスのテクノロジーを1つに統合したものです。これにより、そのデータがどこで、どのように利用されても、一度設定したアクセス制御とセキュリティポリシーがそのまま適用されて、データチームは適切なデータ利用者だけが適切なデータセットを利用でき、機密性の高いデータは保護されていることを認識できます。分散してサイロ化したデータシステムとは違い、中央型の信頼できるセキュリティ管理層があるので、データへの不正アクセスは誰にもできないという自信を持って、データの民主化を容易にします。ガバナンスの観点から、データチームが、データのパイプラインの健全性、データプロダクトの質、実行エンジンのパフォーマンスを監督し、把握するのです。
メタデータの縄張り争いは始まったばかり
データチームがハイブリット型で分散型のデータアーキテクチャーを採用する場合、統合したセルフサービスのデータ見識の提供、データ利用者が信頼できる分析的洞察の提供、データエステート全体のセキュリティとガバナンスの確保にとって、メタデータの管理は極めて重要です。
最高データ分析責任者は、この新たな戦場におけるデータ戦争から、次のような重要な教訓をいくつか得ることができます。
- オープンメタデータの選択:メタデータを1つのソリューションやプラットフォームに囲い込んではいけない。Iceberg は、オープンソース・ソフトウエアの大規模な商用エコシステムに対して、オープンで相互運用性があることを保障する優れたツールである。
- メタデータ管理の統合:全ての環境とシステム、さらにはサードパーティーのツールとプラットフォーム全体の運用メタデータと、ビジネスメタデータを統合するメタデータの管理ソリューションに投資する。
- オートメーション化とスケーラブルであること:オートメーション化を活用して、大規模な分散型環境で、メタデータを生成し管理するための規模と複雑さに対応する。
- セキュリティとガバナンスの集中化:セキュリティとガバナンスのポリシーが首尾一貫して適用され、データの状況全体が強化されて、機密性のあるデータを保護して、自社のデータエステートの健全性とパフォーマンスを確保する。
これらは、Cloudera のメタデータ管理のソリューションの基本理念であり、Cloudera が分散型のエンタープライズ環境全体のオープンメタデータ戦略を支援するという、独自の姿勢を取る理由なのです。
Cloudera のメタデータ管理ソリューションの詳細は、こちらのプレスリリースでご紹介しています。