by Brian Lachance
この記事は、2022/10/05 に公開された「10 Keys to a Secure Cloud Data Lakehouse」の翻訳です。
データと分析をクラウドで実現することで、無限のスケールと可能性を手に入れ、データからより速く洞察を得て、より良い意思決定を行うことができるようになります。データレイクハウスは、あらゆる分析および機械学習(ML)のユースケースを実行する柔軟性を備え、すべてのエンタープライズデータのための単一プラットフォームを実現します。そのことから、人気が高まっています。クラウドデータレイクハウスは、クラウドデータレイクやクラウドデータウェアハウスと比較して、拡張性、俊敏性、コスト面で大きな優位性を持っています。
「データレイクの柔軟性とコスト効率、データウェアハウスのパフォーマンスと信頼性など、両者の長所を兼ね備えています。」
クラウドデータレイクハウスは、複数の処理エンジン (SQL、Sparkなど) と、最新の分析ツール (ML、データエンジニアリング、ビジネスインテリジェンス) を統合した分析環境を実現するものです。これによりユーザーは、データを迅速に取り込み、セルフサービスによる分析や機械学習を実行できます。クラウドデータレイクハウスには、オンプレミスのデータレイクと比較して、拡張性、俊敏性、コスト面で大きなメリットがありますが、クラウドへの移行には、セキュリティにおける考慮事項があるのも事実です。
データレイクハウスのアーキテクチャは、複雑なエコシステムを構成するコンポーネントを組み合わせて設計されており、それがデータを悪用する際の侵入経路となってしまう可能性があります。よって、リスクを避けたいという理由で敬遠されることもあります。しかし、クラウドデータレイクハウスのセキュリティは年々進化しており、オンプレミスのデータレイクハウスと比較しても、より安全で適切な方法で、大きなメリットを得られるようになってきています。
ここでは、クラウドデータレイクハウスを安全に運用し、リスクを低減し、継続的に可視化するために重要な10の基本的なセキュリティ対策を紹介します*。
- セキュリティ機能の分離
このプラクティスは、クラウドセキュリティフレームワークの最も重要な機能であり、基盤であると考えてください。NIST (米国標準技術研究所) のSpecial Publication によると目標とされるのは、セキュリティと非セキュリティの機能を分離するように設計されていて、最小限の特権機能を使用することで実装することとあります。このコンセプトをクラウドに適用する場合、目標はクラウドプラットフォームの機能を、意図どおりになるように厳しく制限することです。データレイクハウスの役割は、データレイクハウスプラットフォームの管理・運営に限定されるべきで、それ以上は含みません。クラウドのセキュリティ機能は、経験豊富なセキュリティ管理者に任せるべきです。また、データレイクハウスのユーザーが、環境を重大なリスクにさらすようなことがあってはなりません。DivvyCloud 社が最近行った調査によると、クラウドの導入で攻撃者の侵入につながる主な原因の1つは、単なる設定ミスや経験の浅いユーザーによるものであることがわかりました。セキュリティ機能の分離と最小権限原則をクラウドセキュリティプログラムに適用することで、外部への流出や、データ漏洩のリスクを大幅に低減することができます。
- クラウドプラットフォームの強靭化
一意のクラウドアカウントを使うことで、クラウドデータレイクハウスのプラットフォームを分離し、強靭化します。プラットフォームの機能は、管理者がデータレイクハウスプラットフォームを管理・運用するための機能に限定し、それ以外の機能は使用しないようにします。クラウドプラットフォーム上で論理的なデータ分離を行うための最も効果的なモデルは、デプロイメントに一意のアカウントを使用することです。AWS の組織単位の管理サービスを利用すれば、簡単に新しいアカウントを組織に追加することができます。新しいアカウントを作成することによる追加コストはなく、発生する唯一の増分コストは、AWS のネットワークサービスの1つを使用して環境を接続することです。
データレイクハウスサービスを実行するための独自のクラウドアカウントを取得したら、CIS (Center for Internet Security) が要点をまとめている強靭化手法を適用してください。例えば、CIS ガイドラインでは、AWS アカウントを保護するための詳細な構成設定が記載されています。一意のアカウントを使う戦略と強靭化手法により、データレイクハウスのサービス機能を他のクラウドサービスから分離し、安全性を確保することができます。
- ネットワーク境界
クラウドアカウントを強靭化した後は、環境に合わせたネットワーク経路の設計が重要です。これは、セキュリティ対策の重要な要素であり、最初の防衛線でもあります。帯域幅やコンプライアンス要件によって、プライベート接続を使用したり、クラウドが提供する仮想プライベートネットワーク(VPN)サービスを使用して、トンネル経由でトラフィックを企業に戻すバックホールを使用したりすることもできます。
クラウドアカウントに何らかの機密データを保存する予定で、クラウドへのプライベートリンクを使用していない場合、トラフィック制御と可視化は非常に重要です。クラウドプラットフォームのマーケットプレイスで提供されている、多くのエンタープライズファイアウォールのいずれかを使用してください。これらの製品は、ネイティブのクラウドセキュリティツールを補完するような高度な機能を提供し、価格も手ごろです。仮想化エンタープライズファイアウォールをハブ・アンド・スポーク設計で導入し、1つまたは2つの高可用性ファイアウォールを使用して、すべてのクラウドネットワークを保護することができます。ファイアウォールは、パブリック IP アドレスを持つクラウドインフラの唯一のコンポーネントであるべきです。不正アクセスやデータ流出のリスクを抑えるため、侵入防止プロファイルとともに、入退出のポリシーを明示する必要があります。
- ホストベースのセキュリティ
ホストベースのセキュリティは、クラウドの導入において重要でありながら、見落とされがちなもう1つのセキュリティレイヤです。
ネットワークセキュリティにおけるファイアウォールの機能と同様に、ホストベースのセキュリティは、ホストを攻撃から保護し、多くの場合、最後の防衛線として機能します。ホストのセキュリティの範囲は非常に広く、サービスや機能によって異なる場合があります。より包括的なガイドラインはこちらを参照ください。
ホスト侵入検知:これは、ホスト上で動作するエージェントベースのテクノロジーで、さまざまな検出システムを使用して、攻撃や疑わしいアクティビティを発見し、警告を発します。侵入検知の手法として、業界で主流となっているのは2つです。最も一般的なのはシグネチャベースで、既知の脅威のシグネチャを検出することができます。もう1つは、シグネチャベースの手法では気づかないような不審なアクティビティを、行動分析によって検出するアノマリー検知ベースという手法です。機械学習機能に加え、その両方を提供するサービスもいくつかあります。どちらの手法でも、ホストのアクティビティを可視化し、潜在的な脅威や攻撃を検知して対応する能力を提供します。
ファイル整合性監視(FIM):環境内のファイル変更を監視・追跡する機能で、多くの規制コンプライアンスフレームワークにおいて重要な要件となっています。これらのサービスは、サイバー攻撃を検知・追跡する上で非常に有効です。ほとんどのエクスプロイトでは、何らかの形で昇格した権限でプロセスを実行する必要があるため、すでにこれらの権限を持っているサービスやファイルを悪用することになります。例えば、不正なパラメータによってシステムファイルを上書きし、有害なコードを挿入することができるといったサービスの欠陥を悪用するのです。FIM は、これらのファイルの変更、あるいはファイルの追加をピンポイントで特定し、発生した変更の詳細を警告することができます。また FIM の中には、ファイルを既知の良好な状態に戻す、リストア機能や、ファイルパターンを解析して悪意のあるファイルを特定するなど、高度な機能を備えたものもあります。
ログ管理:クラウドデータレイクハウスのイベントを分析することは、セキュリティインシデントを特定するための鍵であり、規制遵守のコントロールの要となるものです。ログの記録は、不正行為によるイベントの改ざんや削除から保護する方法で行う必要があります。ログの保管・保存・破棄のポリシーは、多くの場合、米国における連邦法やそれと同レベルのコンプライアンス規制を遵守するために必要です。
ログ管理ポリシーを実施する最も一般的な方法は、ログを集中ストレージリポジトリにリアルタイムでコピーし、さらに分析するためにアクセスできるようにすることです。ログ管理ツールは、商用・オープンソース問わずさまざまな選択肢があり、その多くは AWS CloudWatch のようなクラウドネイティブのサービスとシームレスに統合されています。CloudWatch は、ログ収集サービスで、データをダッシュボードで可視化する機能を備えています。また、システムリソースが、指定されたしきい値に達したときに、警告を発するためのメトリックスを作成することも可能です。
- ID管理と認証
クラウドデータレイクハウスを監査し、強力なアクセスコントロールを提供するためには、アイデンティティ (ID) が重要な基盤となります。クラウドサービスを利用する場合、まず、ID プロバイダー (Active Directory など) とクラウドプロバイダーを統合する必要があります。例えば、AWS では SAML2.0 を使用してこれを行う方法について明確な指示を提供しています。特定のインフラサービスでは、これで十分なIDが得られるかもしれません。サードパーティのアプリケーションを管理したり、データレイクハウスを複数のサービスで展開する場合、SAML クライアントや Auth0、OpenLDAP、Kerberos、Apache Knox などのプロバイダーでは、認証サービスのパッチワークを統合する必要があることもあります。例えば、AWS は、連携した EMR Notebook へのアクセスのための SSO 統合の支援を提供しています。Hue、Presto、Jupyter などのサービスに拡張したい場合は、Knox と Auth0 の統合に関するサードパーティのドキュメントを参照できます。
- 認証
認証は、データおよびリソースへのアクセス制御と、機密データを保護するための列レベルのフィルタリングを提供します。クラウドプロバイダーは、リソースベースの IAM ポリシーと RBAC によって、強力なアクセスコントロールを PaaS ソリューションに組み込んでいます。このポリシーは、最小特権の原則を使用してアクセスコントロールを制限するように設定することができます。最終的な目標は、行と列レベルのアクセス制御を一元的に定義することです。AWS などのクラウドプロバイダーは IAM の拡張に着手しており、レイク形成などのデータやワークロードエンジンのアクセス制御を提供するとともに、サービスやアカウント間でデータを共有する機能を増やしています。クラウドデータレイクハウスで稼働するサービスの数によっては、このアプローチをApache Ranger などのオープンソースやサードパーティプロジェクトで拡張し、すべてのサービスに対して、きめ細かな認可を確保する必要があるかもしれません。
- 暗号化
暗号化は、クラスタとデータのセキュリティの基本です。暗号化のベストプラクティスは、一般的にクラウドプロバイダーが提供するガイドに記載されています。これらの詳細を正しく把握することは非常に重要であり、そのためには IAM、キーローテーションポリシー、特定のアプリケーションの構成について十分に理解する必要があります。バケット、ログ、シークレット、ボリュームなど、AWS 上のすべてのデータストレージについて、KMS CMK のベストプラクティスをよく理解することをお勧めします。データインモーション (移動中のデータ) だけでなく、保存中のデータも暗号化されていることも確認してください。クラウドプロバイダーが提供していないサービスと連携する場合、独自に証明書が必要な場合もあります。いずれの場合も、90日ごとに証明書をローテーションする方法の開発も必要です。
- 脆弱性管理
分析スタックやクラウドプロバイダーにかかわらず、データレイクハウスインフラのすべてのインスタンスに、最新のセキュリティパッチが適用されていることを確認する必要があります。OS やパッケージの定期的なパッチ適用、インフラ全体の定期的なセキュリティスキャンを実施してください。また、クラウドプロバイダー (Amazon Linux Security Centerなど) からのセキュリティ情報の更新をフォローし、組織のセキュリティパッチ管理スケジュールに基づいてパッチを適用することも可能です。もし、貴社がすでに脆弱性管理ソリューションを導入しているのであれば、データレイクハウス環境のスキャンに活用することができるはずです。
- コンプライアンスの監視とインシデント対応
コンプライアンスの監視とインシデント対応は、早期発見、調査、対応のためのセキュリティフレームワークの基礎となるものです。既存のオンプレミス型セキュリティ情報・イベント管理 (SIEM) インフラがある場合、それをクラウド監視に利用することを検討してください。市場をリードする SIEM システムはすべて、主要なクラウドプラットフォームのイベントをすべて取り込み、分析することができます。イベント監視システムは、脅威や管理違反に関する警告を発することで、クラウドインフラのコンプライアンスをサポートすることができます。また、IOC (Indicators of Compromise) の特定にも使用されます。
- データ損失の防止
データの完全性と可用性を確保するために、クラウドデータレイクハウスでは、安全でコスト効率の良い冗長ストレージ、持続的なスループット、高可用性を備えたクラウドオブジェクトストレージ (Amazon S3 など) にデータを永続化する必要があります。追加の機能には、間違って削除された場合オブジェクトの置換の修復を可能にする保持ライフサイクルによるオブジェクトのバージョン管理が含まれます。データを管理または保存する各サービスは、データ損失について検討し、それを保護する必要があります。また、エンドユーザーによるデータ損失の脅威を最小限に抑えるためには、削除や更新のアクセスを制限する強力な権限付与が重要です。まとめると、データ損失のリスクを減らすには、予算、監査、アーキテクチャのニーズに合ったバックアップと保存の計画を立て、データを高可用性と冗長性のあるストアに置くよう務め、ユーザーエラーの発生を抑えることです。
結論:データレイクハウスの包括的なセキュリティが重要
クラウドデータレイクハウスは、ストレージの枠を超えた複雑な分析環境であり、効果的にセキュリティを確保するためには、専門知識、計画、規律が必要です。最終的には、企業がデータに対する責任と義務を持ち、クラウドデータレイクハウスをパブリッククラウド上で稼働する「プライベートデータレイクハウス」に変換する方法を考える必要があります。今回ご紹介したガイドラインは、クラウドプロバイダーのインフラだけでなく企業のデータを含むようにセキュリティの範囲を広げることを目的としています。
Cloudera は、PassモデルのCloudera Data Platform (CDP) Public Cloud を SaaS ソリューションとして、お客様が選択するクラウドデータレイクハウスを、世界最高水準の独自のセキュリティを構築した上で実行するというオプションを提供します。CDP One では、お客様のデータとアルゴリズムへのアクセスを確保することに真剣に取り組んでいます。Cloudera は、ビジネス資産を守ることの重要性と、セキュリティにおいて失敗したときに発生する風評リスクを理解しており、それが最高のセキュリティを確保するための原動力となっています。
クラウドデータレイクハウスを高速かつ容易に活用する方法を、今すぐお試しください。
*適切である場合、クラウドインフラとデータレイクハウススタックの具体例としてAmazon Web Services (AWS) を使用しますが、これらの実践は他のクラウドプロバイダーやあらゆるクラウドデータレイクハウススタックにも適用されます。