by Mark Schoeni
この記事は、2024/07/24に公開された「Zero Downtime Upgrades – Redefining Your Platform Upgrade Experience」の翻訳です。
先日、Cloudera は、ユーザーエクスペリエンスを強化するために、ゼロ・ダウンタイム・アップグレード (ZDU) 機能が付いた Cloudera Private Cloud Base の最新バージョンを発表しました。ZDU の目標は、Cloudera サービスの利用効果を向上させて、お客様や関係者らが簡単にアップグレードできるようにすることです。
ITインフラを動かし続けながらダウンタイムをなくす方法とは?
ZDU の詳細を説明する前に、あるお客様からヒントを頂いた例え話をしましょう。大都市の住民は、交通機関を頼りに日々の生活の予定を立てています。人々は職場に行ったり、病院に行ったり、食料品店に行く必要がありますが、地域の交通機関を頼って、確実に目的地に到着できるようにしています。エンドユーザーも IT システムを信頼して、仕事を終えて予定通りに帰宅しているのだと考えると、IT インフラの管理は、都市の交通インフラに似ていると思えてくるでしょう。ITを支える組織には、最新状態を維持して、新たな脆弱性にパッチを適用するインフラを確保しつつ、ダウンタイムを最短に抑えるという目立たない仕事があるのです。同じ様に交通機関の当局は、「自動タイヤ空気注入システム」などのイノベーションによって、ダウンタイムを削減しています。つまり、イノベーションはあらゆる側面から実施するべきなのです。そこで問題が提起されます。クラスタがバスのようだとすると、どうやって走行しているバスのタイヤに空気を注入するのか?つまり、インフラを動かし続けながらダウンタイムをなくす方法とは?という問題です。
ゼロ・ダウンタイム・アップグレードの導入
ZDU は、内部関係者と外部の顧客がグローバル化することで生じた、拡大する IT インフラの需要に対する解決策です。夜間や週末に IT インフラを停止させてアップデートを適用する時代は終わろうとしています。バスにメンテナンスが必要なのと同様に、IT インフラには、大規模なアップデートを行ったり、ワークロードを調整するためのパフォーマンス強化を行ったり、環境保全のために脆弱性にパッチを適用したりするメンテナンスが必要です。Cloudera は、Service Packs および Cumulative Hotfixes (CHFs) <累積ホットフィックスについてのブログ> で、改善と脆弱性へのパッチ適用を実現しながら、このメンテナンスを支援しています。Service Packs および CHF の適用プロセスは単純ですが、サービスには再起動が必要です。そこで、Cloudera Private Cloud Base は、アップグレードとパッチ処理に対する根本的な変更に適応して、ワークロードのダウンタイムを短縮し、最終的にはゼロにする必要があるのです。
Cloudera にとって ZDU は、ダウンタイムをゼロにして、アップグレードサービス機能を提供するのは初めてではありません。稼動しながらのアップグレードと再起動は、すでに HDFS や YARN などのサービスで対応済みです。この機能は Cloudera Private Cloud Base でも対応可能で、ユーザーはキャパシティを縮小し、ダウンタイムをゼロにした状態で Cloudera の基本サービスの一部を再起動することができます。
ゼロ・ダウンタイム・アップグレードの詳細
こうした文脈を踏まえた上で、Cloudera Private Cloud Baseの ZDU が、エンドユーザーを「走行」させた状態で重要度の高いメンテナンスを行う方法を詳しく説明しましょう。プラットフォームの管理者は、ZDU によりダウンタイムを最短に、そしてゼロにしながら、大規模なアップデートを行い、サービスパックや累積ホットフィックスを適用できるようになります。この体験での一つ目のイノベーションは Cloudera Manager のアップグレード処理を向上させることでした。一連のサービスのアップグレードでは、サービスへの依存度の高さと、サービスがキャパシティの減少により影響される時間の短縮とを最適化します。このような最適化により、通常の十分な時間をかけるダウンタイムでも、ZDU 体験でも、アップグレードにかかる時間を改善するのです。二つ目は、ダウンタイムがゼロのアップグレード機能を追加しても、実現可能性のあるダウンタイム時間の短縮をしても、サービスが改善されることです。
ゼロ・ダウンタイム・アップグレードの間、何が起こるかを説明しましょう。Cloudera Manager でアップグレードを開始すると、最初にチェックリストのページが表示されて、クラスタのアップグレード準備ができているかを確認できます。リストのチェックが埋まれば、通常またゼロ・ダウンタイム・アップグレードを実施できます。ZDU が開始されると、Cloudera Manager は、二段階に分けてサービスのアップグレードを始めます。第一段階では、一定のダウンタイムが生じるサービスがアップグレードされます。これにより、どのサービスのダウンタイムも予測できるようになりますが、ダウンタイムが生じるのは、アップグレードの時間帯の最初だけです。第二段階では、Cloudera Manager が残りのサービスのアップグレードを実施し、キャパシティの低下が生じますが、ダウンタイムは生じません。Cloudera Manager が一連のコマンドを完了すると、管理者によるクラスタのバリデーションが始まることがあります。通常のアップグレードが完了する前とほぼ同様です。処理中に何らかの問題が生じた場合、すぐに Cloudera Private Cloud Base Cloudera はダウングレードに対応し、クラスタはメタデータを失わずに、以前のバージョンに対応できるようになります。
Clouderaは、お客様が自信を持って難易度の高いデータや AI の課題に立ち向かうことができるように熱意を持ってサポートします。ゼロ・ダウンタイム・アップグレードの第一段階は、クラスタの管理者チームへの革新的な体験の提供において大きな成果を上げることです。前述の例で言うと、Cloudera の目的は、バスを走行させて乗客を移動させ続けるためのツールを提供することで、すべての人々が予定通りに帰宅できるようにすることなのです。
詳細はこちら、Cloudera の製品ページでご紹介しています。