by Sudhir Menon
この記事は、2022/9/7に公開された「Large Scale Industrialization Key to Open Source Innovation」の翻訳です。
Cloudera のオープンソースライセンスポリシーは、オープンソースのイノベーションの動きに合わせて進化してきました。Cloudera の最新のポリシーに関する詳細については、OSSQuestions@cloudera.com までメールでお問合せください。
Apache Software Foundation が牽引する主要なビックデータのイノベーション、クラウドコンピューティングの登場、安価な分散ストレージの登場など、過去10年間のデータ業界を牽引した主なトレンドは、2022年に入り落ち着いてきた傾向があります。そして、ベンダーにとっての競争優位性と、顧客にとっての価値を明確に示すという流れへと切り替わっています。Cloudera では、これらの流れがコミュニティ全体の確実なメリットにつながるように取り組んでいます。さらに重要なこととして、そのイノベーションの恩恵をお客様に継続的に提供しています。
Cloudera には、早期から取り組みを開始したという強みがあります。何年にも渡り、ミッションクリティカルなアプリケーションに大規模な展開を行っているお客様がいるのです。私たちは、産業用オープンソースソフトウェアの最も初期のパイオニアとして、オープンソース開発における根本的な進化を加速させる機会と経験を得ることができたと考えています。
そこで、これからの10年に何が起こるのか深掘りしていきたいと思います。
これからの10年におけるオープンソース
オープンソースは、開発者が他の開発者の問題を解決するソリューションとして始まりました。今日、オープンソースは新しいイノベーションを生み出す主要なソースとして広く認知されており、世界中のあらゆる企業でその活用の痕跡を見つけることができます。
私は、次の10年間における変革をとても楽しみにしています。そして、オープンソースのイノベーションは、プロジェクト、アーキテクチャ、システムの3つの次元で加速していくと考えています。これは、データ管理とデータ分析のためのオープンソースイノベーションの産業化における次のステップを表しています。
データ管理エンジン、ストレージエンジン、ML エンジン、データフォーマット、テーブルフォーマット、ワークロード・オーケストレーション・エンジンなどのプロジェクトのイノベーションは、オープンソースの動きの基礎となるものであり、それは現在も続いています。これは、開発者による開発者のためのイノベーションであり、OSS プロジェクトの採用が進むにつれ、プロジェクトレベルでのイノベーションが急加速しています。
アーキテクチャのイノベーションは、進化の第2波でした。プロジェクトレベルの革新者が、特定の問題に対するソリューションを提供する専門性を証明するにつれ、オンプレミスとクラウドの両方で、データのライフタイム全体にわたって相互運用性、セキュリティ、ガバナンスを提供する最高クラスのソリューションを構築する必要性が出てきたのです。Apache Icebergのようなプロジェクトが発展していることからも、このプロセスが盛り上がっていることがわかります。
システムのイノベーションは、オープンソースの次の進化形態です。企業がオープンソースをビジネスに活用する価値を理解するにつれ、後方互換性、アップグレード、情報セキュリティのコンプライアンスなどの機能を、パッケージの一部として考慮する必要が出てきています。これからの10年は、オープンソース開発の中心の1つとして、「エンタープライズレディネス」(エンタープライズ利用に対応できる) と呼ばれているシステムイノベーションを求められるでしょう。
プロジェクトレベルのイノベーション
Apache Hadoop、Apache Spark、Apache Kafkaといった製品を生み出したプロジェクトレベルのイノベーションは、最高レベルのエンジニアリングの結晶です。さまざまな企業で働く開発者が集結してコミュニティを形成し、データフォーマット、テーブルフォーマット、クエリエンジン、HDFS に着地できる膨大なデータに対する ETL ワークロードの実行など、イノベーションを促進したのです。このイノベーションは、これらのプロジェクトを生み出すきっかけとなった一握りの「種」となるユースケースに支えられています。コミッターシップ(コードをコミットするライセンス)がイノベーションの聖域へのチケットとなる実力主義社会のプロジェクトは、十分な多様性と差別化を実現します。これらの製品を産業規模のアプリケーションに採用することに課題があったとしても、それらがもたらす価値は努力に値するものです。
今日、ビッグデータのエコシステムのさまざまな側面を解決する新しい革新的なプロジェクトが数多く見られますが、その中にはCloudera が生み出し、Apache Ozone や Apache YuniKornのように成功しているプロジェクトも含まれています。Log4J のゼロデイ攻撃などが示すように、コミュニティは、上記のプロジェクトを動かすオープンソースのサプライチェーンを確保することに注力する必要があります。コミュニティは、何百もの必須ライブラリの CVE を排除し、製品の自然な進化として古いものは削除することを確立しなければなりません。今後、オープンソースプロジェクトにおいて最も重要な決定の1つは、サードパーティを製品に導入するかどうかを決めることです。
アーキテクチャのイノベーション
アーキテクチャのイノベーションとは、独立した製品に標準と相互運用性をもたらす手段としてオープンソースを利用する方法です。それは、企業に多くの選択肢を提供し、継続的なイノベーションを促進します。この試みの最終的な目標は、実務者と企業のために、エンジン間の複雑さを軽減し、TCO を削減することです。これは、価値創造の重要な部分であり、OSS コミュニティが一貫して提供することが求められることです。
これまで Cloudera は、Parquet や ORC など、システム間の相互運用性を構築するためのイノベーションを率先して提供してきました。また、Apache Ranger や Apache Atlas といった製品が、セキュリティやガバナンスの業界標準として採用されているのを目にしてきました。最近では、業界リーダーが協力して、Apache Iceberg をビッグデータの業界標準として採用し、Hive や Impala などのエンジンでサポートを追加しています。クラウドとオンプレミスの両方で、Apache Iceberg を SQL ワークロードのデファクトテーブルフォーマットに変えることに関して、コミュニティの広い範囲にわたって収束することが期待されます。
オープンソースにおけるアーキテクチャのイノベーションの最近の例として、100%オープンソースのコンポーネントを使用して、安全性とガバナンスの両方を備えたオープンデータレイクハウスと構築できることが挙げられます。このアーキテクチャに基づき、企業はさまざまなエンタープライズソリューションを活用することができるようになります。
システムのイノベーション
オンプレミスかクラウドかに関係なく、企業の価値実現までの時間を短縮することは、IT に関する最終的な購買の決断を下す CIO にとって、究極の価値命題となります。そこで登場するのが、システムイノベーションです。非常に明確で安定した API コントラクトを持つ製品を構築することで、サードパーティ製品は一度認証すればどこでも動作し、後方互換性にも対応できるようになります。システムイノベーションとは、プロジェクトを横断して協力し、オープンソースのサプライチェーンを確保することによって、システム全体が、最初から安全で完全であること、さらに容易に修復できるようにすることです。
システムイノベーションの一例として、業界におけるデータメッシュへの取り組みが挙げられます。このデータメッシュをただの流行語として終わらせないためには、それを動かす基本的な要素であるデータセットに注目する必要があります。データセットの定義、キュレーション、メンテナンス、安全なアクセスを提供するためには、複数のオープンソースプロジェクトが必要です。この分野において、Cloudera はオープンソースコミュニティに貢献できる重要な専門知識と観点を備えています。私たちは、世界中の厳しい規制を必要とする大手企業から信頼を得ており、その専門知識は、システムイノベーションの世界へと進化していく中で、大きなメリットとなることでしょう。
新しい時代における競争力
オープンソースはお客様にとって、継続的なデータ革新のための業界全体のコラボレーションを促進します。その結果、企業がクローズドソースや準クローズドソース、パフォーマンスやエコシステムに支障があるプラットフォーム、コミッターの数が少ない単一ベンダーによって構築されたプラットフォームに対して、良い評価をつけなくなるでしょう。複数のオープンソースシステムを活用し、ハイブリッドでマルチクラウドなソリューションを提供し、お客様に最も多くの選択肢を提供できるソフトウェア企業は、間違いなく継続的なイノベーションで優位に立つことができます。あるトレーダーは「テクノロジーの軍拡競争は、より速く取引を実行することにあると思う。勝負を仕掛ける必要はあるが、最終的には、より良い取引を速く実行することが価値創造につながる」と言っていました。企業は、ビジネス上の問題解決により多くの時間を費やし、製品の内部を気にする時間を減らしたいと考えています。さらなる飛躍ができるのは、このニーズに対応できるベンダーでしょう。
将来を見据えて
この10年間は、ソフトウェア開発においてワクワクする時代でした。ソフトウェアが世界に広がり、デジタルトランスフォーメーションが大小問わずあらゆる業界を変え、新たな勝者と敗者を生み出しました。これからの10年は、オープンソースソフトウェアの開発がシステムイノベーションによって巨大なスケールで産業化され、さらにエキサイティングなものになることが約束されています。Cloudera は、ビッグデータの価値を世界に伝え、その専門知識を活かして次の波の最前線に立ち、これからも新世代のオープンソースのイノベーションを率いていきます。