By Wim Stoop
この記事は、2023/03/22に公開された「Observe Everything」の翻訳です。
ここ数年の間に、システムアーキテクチャはモノリシックなアプローチから、ヘテロジニアスなインフラ間でコンテナ、スケジューラ、LAMBDA関数などを活用するアプリケーションやプラットフォームへと進化しています。Cloudera Data Platform (CDP) ももちろん例外ではありません。複雑なデータをどこでも扱えるようにしたいという企業のニーズに応え、迅速かつ簡単に実用的な洞察に変えることができるハイブリッドデータプラットフォームです。
今まではデータの品質やシステムのパフォーマンスに関する疑問は、複数のログやメトリクスを監視することで解決されていましたが、ハイブリッドデータプラットフォームのような分散環境では、それは簡単なことではありません。多くのログやメトリックスがあり、あらゆる場所に分散されているからです。
また、監視をしていて何か異常が起きれば通知されますが、「何が」おかしいのかはわかりません。そこで登場するのが「オブザーバビリティ (可観測性) 」です。
あえて「何が」と言う言葉を使った理由は、CDP を使う中で、役割によってそれぞれ「なぜだろう?」と思う点が違うからです。ビジネスアナリストは、顧客満足度ダッシュボードの値が昨日から変わっていないことを不思議に思うかもしれません。DBA は、クエリの1つになぜ、時間がかかったかを知りたいかもしれません。さらに、システム管理者は、データストレージがクラスタ内のいくつかのノードに偏っている理由を突き止める必要があるかもしれないのです。CDP のさまざまな側面に対するあらゆる種類のオブザーバビリティが、プラットフォームの一部としてのデータ、ワークロード、およびソフトウェアのオブザーバビリティという答えを提供します。
データのオブザーバビリティ
データとその洞察を重視するプラットフォームにおいて、主役であるデータが十分に機能しているかどうかを知ることは非常に重要です。Barr Moses 氏が元の記事で概説したように、データのダウンタイムはデータシステムの複雑さに直結し、洞察力や意思決定に直ちに影響を及ぼします。 Luke Roquetは、Ramsey International (RI) のMark Ramsey 氏とともにデータのオブザーバビリティについて掘り下げ、データの品質と信頼性を表す5つの柱(鮮度、分布、量、スキーマ、リネージ)について解説しています。
その柱と提供する指標は、CDPの Shared Data Experience (SDX) が提供するデータガバナンス機能と密接にリンクしており、データカタログで示されています。SDX は、データ資産とそれを扱うプロセスのアクティブおよびパッシブなメタデータを継続的に取得し、管理します。そして、ハイブリッドデータプラットフォームとして重要なのは、ハイブリッドクラウド上でそれを実現することです。CDP、特に SDX では、データガバナンスの実現が難しいというMoses 氏の懸念が直接的に解決されます。特に統一されたデータファブリックとして実装された場合、CDP はプロアクティブなデータガバナンスを保証し、それによって優れたデータオブザーバビリティ、データダウンタイムの削減、より良い意思決定のための信頼できるデータの基盤を提供します。
ワークロードのオブザーバビリティ
CDP が組織に対して果たす重要な役割は、データを規模に応じた洞察と価値に変えることです。そのために、このプラットフォームは、データのライフサイクル全般にわたって、さまざまな分析を提供します。データサービスやワークロードは、データの取り込み、加工、 運用ダッシュボードでの分析への利用、あるいはAIや機械学習モデルの構築への利用を網羅しています。これらの分析は、それぞれ異なるインフラに展開されるため、時として予想と異なる動作を行うことがあります。データのダウンタイムは、SLA や SLO を逃す原因の1つかもしれませんが、実装自体も同様に観察する必要があります。
オブザーバビリティは、常に同じ基準 (メトリック、追跡、およびログ) に基づいて機能しますが、ワークロードのオブザーバビリティも同様です。データ観測の場合と同様に、ワークロードメトリクスと正常性テストは、問題の特定 (潜在的なものも含む) とトラブルシューティングにも役立ちます。その一方で、処方的なガイダンスと推奨事項は、明らかになった問題に対処して最適化します。特に、主なワークロードの基準であるパフォーマンスについては、ベースラインと履歴分析により、パフォーマンスの問題を特定し対処するだけでなく、コスト予測と削減 (財務ガバナンスの強化に伴い重要性が増す分野) の基礎となります。CDP の、Workload Manager はワークロードの観測性を提供し、最適なパフォーマンス、ダウンタイムの削減、リソースの利用率の向上を実現します。
ソフトウェアのオブザーバビリティ
そして、これらのデータ、ワークロードはすべてどこかに展開されています。ベアメタルデータセンターからパブリッククラウド、プライベートクラウド、ハイブリッドクラウドに至るまで、さまざまなインフラで利用できます。OS、コンテナ、リソースなど、それぞれの実現するテクノロジーを積み重ねたレイヤーがあります。今までの流れを振り返ると、IT の世界でオブザーバビリティが最初に登場したのは、ソフトウェアだと言えます。
Cloudera でもソフトウェアのオブザーバビリティはサポートの分野で広く適用されています。Cloudera のサポートは、14年以上の経験をもとに、契約中の130万台以上のノードからソフトウェアで観測可能な洞察を引き出し、診断データに基づく予測アラートを含む高度な診断ツールを構築しています。これにより、Cloudera のお客様は、何百種類もの既知の問題やセキュリティの脆弱性について事前に警告を受けることができ、ダウンタイムの回避、信頼性の向上、リスクの低減を実現できます。
未来に対するオブザーバビリティ
オブザーバビリティは今後も進化し続け、多大なメリットをもたらすことが証明されています。CDP は、インフラからエンドユーザーまで、スタック全体に対応した観測ツールと洞察を提供するプラットフォームです。SDX のデータカタログは、信頼できるデータのオブザーバビリティを提供し、ビジネス全体の意思決定を向上させ、データのダウンタイムを削減するのに役立ちます。ワークロードマネージャーは、プロセスやリソースの利用を最適化するために、ワークロードのオブザーバビリティを追加します。
オブザーバビリティが進化すれば、CDPも進化します。Cloudera はすでに、サポートで使用するソフトウェアのオブザーバビリティと、それがもたらすメリットと洞察を、お客様に提供する取り組みを進めています。また、オープンプラットフォームであることを生かし、CDP の観測能力を他のツールと共有することや、その逆も視野に入れています。
オブザーバビリティは、組織で展開されている複雑化したハイブリッドクラウド環境で生じる疑問への答えを提供する興味深い分野です。 CDP およびオブザーバビリティの未来について詳しく知りたい方は、ぜひご連絡ください。