by Chris Joynt
この記事は、2023/11/27 に公開された「5 Key Takeaways from Flink Forward 2023」の翻訳です。
2023年の11月6日から8日に、シアトル近郊のハイアット・リージェンシー・レイクにおいて年に一度の Flink Forward カンファレンスが開催され、数百人の Apache Flink 愛好家が集まりました。Clouderaは、本イベントにカンファレンスのスポンサーとして、またオープンソースコミュニティのサポーターとして参加しました。Flinkは比較的新しい技術です。しかし、コアエンジンだけでなく、それをサポートする技術においても、採用が進み、新たな開発が促進されています。Flink Forward は、ストリーミングとストリーム処理技術の最先端を学ぶ絶好の場となっています。今回のブログでは、参加できなかった方や、ストリーミング業界で何が起きているのかを知りたい方のために、イベントを振り返りたいと思います。
要点1:Flink のコミュニティの素晴らしさ
まずは、素晴らしいカンファレンスを開催してくれた主催者のVevericaに、感謝を述べたいと思います。このカンファレンスは、オープンソーステクノロジーと、組織で活用している開発者たちに焦点を当てたものでした。OS技術を自社の「秘密のソース」だと偽るベンダーはいませんし、ケーススタディを装った美化された広告もありません。あるのは、Flink に特化したコンテンツとトレーニングだけでした。技術自体は現在、140万ダウンロード、GitHubスター数21,000、1,600のコード貢献を誇っています。400万コア、2,000クラスタノード、41億イベント/秒の Flink クラスタが稼動しています。どの切り口で評価しようと、Flink は「業界標準」だと言えます。
Cloudera の視点:Flink は、これからも残っていく技術です。オープンソースやオープンコアを選択する際、重要な考慮点は、コミュニティのサポートと技術の持続的な開発です。来年には、流行遅れになるような技術に投資したい企業はないでしょう。Flink は、天文学的なスケールで超高速に汎用ハードウェアに導入できる分散エンジンです。Flink より高速であると主張するベンダーがいるのであれば、それは疑うべきです。
要点2:Flinkショップの大半は成熟の初期段階にある
私たちは、Flink の効率性とスピードを求めて、レガシー ETL ツール、Kafka ストリーム、Spark ストリーミング、または他のツールからワークロードを移行した経験を持つ、多くの開発者に話を聞きました。重要な下流アプリケーションの多くは、Flink によって処理されたデータを利用しています。特に、リアルタイム処理の必要性が高い通信、金融サービス、電子商取引などでの活用が見られます。これまで、これらのソリューションの開発とメンテナンスは、Java プログラマーの小さなチームが負担することが多くありました。Flink をスケールさせるために解決すべき一連の課題を提供する、セルフマネジメントの Flink デプロイメントがまだかなりの割合を占めています。多くのアーキテクトやチームリーダーは、ストリーム処理をより多くのユーザー、特に SQL アナリストに普及させたいという要望や、開発リソースを解放しつつパフォーマンスを維持するために、Flink環境の設定やメンテナンスを手作業から PaaS モデルに移行させたいという要望を語ってくれました。
Cloudera の視点:アナリストやドメインエキスパートのために Clouderaが、SQL ベースのノーコードUI である SQL Stream Builder を開発したのは、まさにこのためです。ストリーミングデータへのアクセスを民主化し、ドメインエキスパートのユーザーを開発サイクルに参加させることで、ストリーム処理アプリケーションのイテレーションを加速させます。これは、新しいデータを取り込んだり、不正監視のようにニーズの変化に合わせてロジックを変更したりする場合に不可欠です。
要点3:デプロイメントアーキテクチャを簡素化する取り組みは、採用をさらに加速させることが期待される
多くの組織が Flink のデプロイメントを Kubernetes に移行しています。これにより、環境全体へのデプロイを加速し、継続的にパフォーマンスとリソース利用を最適化することができます。DataOps チームは喜んでいることでしょう。これは Flinkにとって朗報です。これは、導入の障壁を取り除き、全体的な導入コストを下げ、特に異種の処理ツールを統合する場合、Flink パイプラインとアプリケーションの ROI に大きな影響を与えます。
Cloudera の視点:デプロイメントアーキテクチャは重要です。さらに、ハイブリッドも大切です。クラウドのみのソリューションでは、多くのユースケースのニーズを満たすことができず、組織に新たな障壁をもたらすリスクがあります。Cloudera はデータ・イン・モーション (Data in Motion) スタックに Kubernetes を採用し、Flink PaaS をよりポータブルでスケーラブルな、データ運用に適したサービスにしています。
要点4:Kafka だけでは不十分だという認識が広がっている
多くの開発者やアーキテクトが、Kafka の負荷軽減を望んでおり、そのために Flink に注目しています。いくつかの要素を考えてみましょう。まず、多くの人が Kafka を長期ストレージとして使用しており、最新のデータレイクに期待されるような弾力性やアクセシビリティがないままクラスタが大きくなっています。Kafka には、Kconnect と Kstreams がありますが、どちらも実際にストリームされるデータ量を減らすことはなく、Kconnect はデータをストリームに取り込むためにオール・オア・ナッシングのアプローチを提供しています。ストリームがここ何年かで大きく成長したことは驚くべきことではなく、Flink の一般的なユースケースは、Kafka の負荷を軽減するためにストリームを単純にフィルタリングすることです。
Cloudera の視点:市場は進化しています。組織はストリーミングに関して「Kafka がすべてである」という考え方から脱却しつつあるのです。パブリッシュ/サブスクライブ・モデルで解決される多対多のデータ共有を明示的に必要としないワークロードは、リアルタイムニーズ向けの NiFi のようなユニバーサルデータ分散や、データにアクセスできる Iceberg のようなオープンテーブル形式の方が適している可能性があります。Cloudera は、Kafka と Flink、NiFi、Iceberg を組み合わせ、ストリーミングデータのための完全な機能セットを提供します。そして、企業がアプリケーションやビジネスユーザーが必要とするリアルタイムの洞察を提供するために必要なあらゆるデータの取得、処理、配信、保存を支援します。
要点5:ストリーム処理とレイクハウスの能力は相互に必要なものである
Veverica は、Apache Paimon のサポートを発表しました。Apache の新しいプロジェクトで、保存中のデータ (Data at rest) との広範な統合の一環として、この Kafka オフロードのトレンドをサポートする準備が整っているようです。Flink 用の統合ストレージソリューションの価値は高いですが、Paimon や 「ストリームハウス」という用語に市場がどう反応するかは、まだ時期尚早で明確ではありません。このプロジェクトは、いくつかの付加価値を売り物にしていますが、結局のところ、Apache Iceberg に対する根本的な差別化という点では差はほとんどありません。Paimon コミュニティはまだ始まったばかりで、ある地域に集中しており、本格的に普及しているわけではありません。
超低レイテンシの Flink のユースケースと、低レイテンシーの Iceberg の可用性との間に、大きな余地があるのか、その十分なインセンティブがあるかどうかは不明です。Iceberg の低レイテンシーでは遅すぎるが、リアルタイムのストリーム処理が不要なユースケースはあるのでしょうか。Flink 2.0 は間もなくリリースされ、Iceberg が Flink を含む統合エコシステムの開発を継続する一方で、タイムトラベルなどのキラー機能を利用できる Iceberg 統合用のアップグレードが多数含まれています。Sink v2 は Iceberg のロードマップの一部であり、Flink SQL の画期的な変更となり、パフォーマンス向上とコストを削減する増分ファイル圧縮を提供します。これは、Iceberg が Flink との統合開発を継続するという前向きな兆候です。Iceberg は Netflix、Apple、Citi、Bloomberg のような大企業に広く採用されています。そして、これらの大企業は Flink のフットプリントも大きく、両者間の統合を改善しようという意欲を持っているはずです。
Cloudera の視点:データレイクハウスは、あらゆる業界の組織で中核的なアーキテクチャとしての地位を確立しており、レイクハウスプラットフォームと簡単に組み合わせることができるストリーム処理機能の必要性が、ますます明らかになってきています。
Paimon は、問題解決のためのテクノロジーかもしれません。今のところ、Flink と Iceberg は、ストリーミングデータ用のコンピュート+ストレージソリューションです。データインフラの重要な部分を選択する際には、戦略的に考えることが重要となります。単一の統合処理エンジンと単一のオープン・テーブル・ストレージ・ソリューションを組み合わせることで、データアーキテクチャを簡素化する絶好の機会になります。時間が経つにつれて、オープンソースコミュニティは標準になるよう努力を集約する傾向があります。現段階でCloudera は、Paimon の進化とお客様からの需要を注視していきます。
結論
全体として、Flink Forward は素晴らしいカンファレンスでした。Cloudera は、オープンソースコミュニティをサポートし、貢献できることを誇りに思っており、これからも Flink Forward のスポンサーになることを楽しみにしています。Flink はその普及において転換点を迎えています。来年の今頃にはコミュニティが大きく成長し、成熟しているのではないかと期待しています。
Cloudera Stream Processing Community Editionをダウンロード (無料) すれば、1時間以内に Flink を使いこなすことができます。当社の SQL Stream Builder コンソールは、他にはない最も完全なコンソールです。ぜひお試しください。
Cloudera の NiFi ベースの DataFlow の無料トライアルに登録し、ストリームフィルタリングやクラウドデータウェアハウスの取り込みなどのユースケースを、ご覧ください。