by Jeremiah Morrow
この記事は、2024/07/22に公開された「Resilience in Action: How Cloudera’s Platform, and Data in Motion Solutions, Stayed Strong Amid the CrowdStrike Outage」の翻訳です。
エンドポイント、クラウドワークロード、アイデンティティ、データの保護に特化したサイバーセキュリティ企業であるCrowdStrikeの欠陥アップデートによって、テクノロジー業界が大きな混乱に陥った件は、まだ記憶に新しいと思います。このアップデートは世界的な IT 障害を引き起こし、銀行、航空会社、医療などさまざまな分野に深刻な影響を与えました。多くの組織でシステムが機能しなくなり、システムの回復力と信頼性の重要性が浮き彫りになったのです。
しかし、この混乱の中、あるお客様から、多くのシステムが影響を受けたにもかかわらず、特に Cloudera のデータ・イン・モーション・スタックが驚異的な回復力を示し、ダウンタイムを経験しなかったと報告を受けました。本ブログ記事では、このインシデントについてと、Clouderaが、最も重要な分析ワークロードをダウンタイムが起こり得る状況からどのように保護したかについて簡単に説明します。
インシデントの概要
CrowdStrike の事件は、同社のFalcon プラットフォームへの問題のあるアップデートに端を発し、Microsoft システムとの互換性の問題を広範囲に引き起こしました。その結果、多くのシステムで Windows の悪名高い「死のブルースクリーン」が発生し、その他の運用上の障害も発生しました。このインシデントはサイバー攻撃を伴うものではありませんでしたが、技術的な不具合は世界中のオペレーションに大きな混乱をもたらしました。
Clouderaの回復力:データ・イン・モーションとClouderaデータプラットフォーム全体
Cloudera のお客様からは、システムの多くがダウンしたにもかかわらず、Amazon Web Services (AWS) の Linux インスタンス上で稼働する Cloudera サービスは稼働し、機能し続けたと報告を受けています。これらのサービスにはデータ・イン・モーション・スタックが含まれていました。Clouderaのプラットフォーム全体とすべてのハイブリッドクラウド・データ・サービスは、高可用性、災害耐性、およびミッションクリティカルなワークロードを大企業のお客様に提供してきた長い歴史を持ち、そして回復力があることに注目すべき結果となりました。
Cloudera は、データ、分析、AI のための唯一のオープンな真のハイブリッドプラットフォームを提供しており、それによって高可用性と災害耐性を独自の方法でサポートします。あらゆるクラウドやオンプレミスで実行可能なポータブルデータサービスにより、異なるクラウド間を混在させ、オンプレミスのリソースを含む様々な利用可能サイトを構成することができ、単一のプラットフォーム、ベンダー、サービスへの依存を減らして、運用することができます。Cloudera がどのようにレジリエンスのために設計されているかの詳細については、ディザスタリカバリ (災害復旧) に関するブログ記事をお読みください。また、Cloudera を使用してレジリエンスと可用性の目標を達成するためのガイダンスとベストプラクティスについては、Cloudera Reference Architecture for Disaster Recovery (ディザスタリカバリのためのCloudera リファレンスアーキテクチャ) に従ってください。
データ・イン・モーションは、Apache NiFi、Apache Flink、Apache Kafkaなどの一連のテクノロジーで、顧客があらゆる場所のあらゆるデータを取得、処理、配信して、リアルタイム分析、AI、機械学習を実現できるようにします。これらのテクノロジーは、電気通信におけるネットワーク監視やサービス保証から、金融サービスにおける不正検知や防止に至るまで、多くのミッションクリティカルなワークロードやアプリケーションにとって重要なコンポーネントです。リアルタイムのワークロードは、ミッションクリティカルであればあるほど、タイムリーであることの重みが増します。そのため、停止することは、それほど時間が重要でないワークロードと比較して、ビジネスへの影響が著しく大きくなる可能性があります。
幸いなことに、前述のお客様や他の多くの Cloudera のお客様にとって、データ・イン・モーションは、ハイブリッドクラウドのサポートを含む、高可用性と災害耐性に関する Cloudera の最も厳しい基準で設計されており、一部のコンポーネントが CrowdStrike の影響を受けたシステムやサービスに頼っていたとしても、それがプラットフォームの単一障害点となることはありませんでした。サービスを継続できたことは、重大な外部障害が発生した場合でも Cloudera が信頼性と回復力を備えていること、またクラウドプロバイダーの停止によるビジネスへの影響を軽減できる当社の力を証明するものとなりました。
回復力:リアルタイムアプリケーションのためのアーキテクト
CrowdStrike のインシデントは、企業が経験した初めての大規模なサービス障害ではありません。クラウドは、コスト、柔軟性、拡張性の観点から、特に分析ワークロードに多くのメリットをもたらします。しかし同時に、運用上のリスクも伴います。データのリアルタイムキャプチャ、処理、分析に依存するワークロードやアプリケーションの多くは、ダウンタイムは許容されません。
Cloudera のプラットフォームとデータ・イン・モーション・スタックなら、耐障害性を念頭に構築されています。ハイブリッドクラウドに対する Cloudera のユニークなアプローチと、高可用性と災害耐性のための実証済みのアーキテクチャへしっかり投資しているので、多くの企業が今回のインシデントで経験したような課題を軽減できます。また、ミッションクリティカルなワークロードを保護し、ビジネスの継続性を確保することを可能にします。
Cloudera とデータ・イン・モーションの詳細については、こちらをご覧ください。