by Venkat Rajaji
この記事は、2024/6/7 に公開された「Databricks Follows Cloudera by Adopting Iceberg, While Snowflake Mulls Open Source Approach」の翻訳です。
今週は、データレイクハウスの分野において、注目すべきニュースが次々に発表されました。
火曜日、Databricks は Apache Iceberg の開発者である Ryan Blue、Daniel Weeks、Jason Reidfor が設立したデータ管理会社 Tabular を買収すると発表しました。取引額は未確認ですが、その額は10億ドルから20億ドルの間だと報道されており、Snowflake の提示額を上回ったとされています。この動きは、Apache Iceberg と Linux Foundation Delta Lake という2つの最も人気のあるオープンソース・レイクハウス・フォーマットを統一し、異なるフォーマット間でのデータの互換性を高めることを目的としています。
その前日、先週のデータ流出事件の余波に対処中の Snowflake は、Apache Iceberg 用のベンダーニュートラルなオープンカタログであるPolaris Catalog を発表しました。同社はまた、年次ユーザーカンファレンスで、Polaris Catalog を今後90日以内にオープンソース化すると発表しています。
この一連の発表は何を意味し、何をもたらすのでしょうか?
テーブルフォーマットの勝者となる Iceberg
Databricks が Iceberg にこれだけの価値を置くのは、Delta Lake がテーブルフォーマット戦争に敗れ、Iceberg が明らかな勝者になったことを証明します。Iceberg は、大規模なデータと分析の標準となり、今後もその地位を維持することでしょう。
Cloudera は、データ、分析、AIプラットフォームの中心的かつネイティブな存在として Iceberg をいち早く採用しています。これは、あらゆるクラウドとオンプレミスで、Iceberg データエステートを大規模に管理したい場合に、当社が最適なベンダーであるという信頼につながります。
オープンソースは本当にオープンなのか
オープン・データ・レイクハウス企業であるという主張とは裏腹に、Databricks はオープンソースに、忠実ではないことはあまり知られていません。Tabular とは異なり、Databricks は顧客のロックインを維持するためにオープン・ソース・テクノロジーの独自実装として商用バージョンを作成しています。今回の動きがそのアプローチを変えるかどうかはまだわかりません。
Cloudera は、Iceberg をベンダーロックインすることなく、あらゆるクラウドとオンプレミスで大規模に管理する中立的な存在です。また、当社の顧客には、Iceberg プロジェクトに直接貢献している多くの大企業がいます。これが、真のオープンソースなのです。
Tabular は Iceberg を所有しているわけではない
Tabular は Iceberg プロジェクトの発案者によって設立されました。同社には、AWS、Google、Dremio、Starburst、Adobe、Apple、Netflixなどの企業の従業員からなる Iceberg のコントリビューターやコミッターの約20%が在籍しており、貢献度の大部分を占めています。Iceberg は Delta Lake とは異なり、健全なコミュニティがあり、オープンソース、そしてベンダーに依存しないために投資している多くの大企業があります。
今回の回収は Databricks にとってリスクが高く、コストがかかります。特に、コミッターの 80% が、オープンソースでいることが難しくなると判断した場合は、そのリスクはより高まります。
Iceberg の世界へようこそ
Cloudera は何年もこの世界を進んできました。2022年に投稿したオープンレイクハウスに関するブログ記事は、Databricks の今回の流れを予測していたと言えます。
Iceberg は、ハイブリッドクラウドを横断する Cloudera のオープン・データ・レイクハウス・アーキテクチャの中心的存在であり、それは今後も続いていきます。市場と顧客がデータの中心的なテーブルフォーマットとして Iceberg に移行し、他社もこの分野に参入していますが、Cloudera は業界のリーダーとしてこれからも Iceberg を活用し、最先端を走り続けます。