AIアプリケーションのサプライチェーンセキュリティを確保する方法

AIアプリケーションのサプライチェーンセキュリティを確保する方法

by Peter Ableda, and Evan Cole
この記事は、2023/08/17 に公開された「How to Ensure Supply Chain Security for AI Applications」の翻訳です。

機械学習 (ML) は、現在の AI アプリケーションのブームの中心にあり、さまざまな領域に革命をもたらしています。ChatGPTBard のようなインテリジェントな大規模言語モデル (LLM) ベースのチャットボットから、Stable Diffusion のようなテキストから AI 画像を生成するものまで、ML はイノベーションを推し進めています。その変革的なインパクトは、遺伝学、医学から金融に至るまで、さまざまな分野を前進させます。大げさではなく、ML は人々の生活を大きく変える可能性を秘めているのです。

しかし、これらの分野の ML ソリューションの多くは、いち早く市場に投入させようとするあまり、セキュリティを後回しにしてきました。ChatGPT を例にとると、他のユーザーのクエリを表示できる可能性があったオープンソースライブラリの問題を修正した後、つい最近ユーザーのクエリ履歴を復元させました。チャットボットで機密情報を共有していた場合、これはかなり深刻な問題につながります。

このようなソフトウェアサプライチェーンのセキュリティ問題にもかかわらず、ChatGPT は商用サービス史上最速の導入率を記録し、サービス開始後、わずか2ヶ月で1億人のユーザーを獲得しました。

ほとんどのユーザーにとって、ChatGPT のオープンソースのセキュリティ問題は認識すらされませんでした。そして、誤った情報、不正情報、さらには全くの嘘の情報までが流されているにもかかわらず、ChatGPTを使うメリットはリスクよりもはるかに大きいと見なされているのです。

ここで質問です。NASAの設計を使って、専門家ではない整備士が家のガレージで作ったスペースシャトルに乗りたいでしょうか?分解しない限り、内部のすべてが仕様どおりに作られているかどうかを確認する方法がないという事実にもかかわらず、宇宙に行けるというチャンスがリスクを上回るという人もいるかもしれません。しかし、航空用の溶接器具を使っていなかったらどうでしょうか?もしくは、フライトを妨害するためにわざとボルトの締め忘れがあったとしたらどうでしょうか?

乗客は、製造工程が設計工程と同レベルにきちんとなされていると信頼する必要があります。そして、同じ原理が、ML革命を推進しているオープンソースソフトウェアにも当てはまると考えています。

AIソフトウェアのサプライチェーンリスク

ある意味では、オープンソースソフトウェアの設計は本質的に安全であると考えられています。なぜなら、ソースコードはコンパイルされておらず、読むことができるため、世界中の人々がソースコードを精査することができるからです。しかし、厳密なプロセスを持たない作成者が、そのコードを機械語、つまりバイナリにコンパイルすると問題が生じます。バイナリは一度組み立てると分解するのが非常に難しいため、マルウェアを意図の有無にかかわらず隠すのに最適な場所なのです。これは、SolarwindsKaseya3CXなどの事例によって証明されています。

ML、AI、データサイエンスの実装の大部分を支える Python エコシステムの文脈では、コンパイル済みのバイナリは、ホイールと呼ばれるバンドルの中で、人が読める Python コードと組み合わされます。コンパイルされたコンポーネントは通常 C++ のソースコードから派生したもので、Python インタープリターで実行すると、遅すぎる数学的ビジネスロジックの処理を高速化すると採用されます。Wheels for Python は一般的にコミュニティによって集められ、Python Package Index (PyPI) のような公開リポジトリにアップロードされます。残念なことに、こうした一般でも入手可能なホイールは、マルウェアを難読化して配布するための一般的な方法として増加しています。

さらに、ソフトウェア業界全体として、従来の開発におけるソフトウェアサプライチェーンのリスク管理は一般的に不十分です。中でも、とにかく早くリリースするという今の流れにおけるAI アプリのリスク管理については言うまでもありません。それは悲惨な結果を招くことにつながりかねないのです。近年の事例は次の通りです。

  • 2020年、Solarwinds のハッキングが攻撃にさらされ、その結果として次のような組織が被害を受けた
    • フォーチュン500の80%の組織
    • 米国通信業界トップ10
    • 米国の会計事務所トップ5
    • CISA、FBI、NSA、米軍5部門すべて
  • 2021年の Kaseya へのハッキングは、Revil ランサムウェアを拡散させた
    • マネージド・サービス・プロバイダー (MSP) 50社
    • (上記の50社から) 世界で800~1,500の企業に拡散
  • 2023年3月の3CXハッキングは、ソフトフォンVoIPシステムに影響を与えた
    • 世界60万社
    • 1,200万人のデイリーユーザー

そしてこの被害のリストは増え続けています。業界として私たちは何も学んでいないとも言えます。

信用度の評価、ガンの検出、ミサイルの誘導など、ML モデルによってなされる現実の判断を考えれば、ML の影響は多大なものです。ML がプレイグラウンドの開発環境から本番環境に移行するにつれ、これらのリスクに対処する時がきました。

スピードとセキュリティ:AI ソフトウェアサプライチェーンのセキュリティ

AI の技術革新を6カ月間休止するような呼びかけがありましたが、それには反対の声が上がりました。同様に、ソフトウェアのサプライチェーンを修復するために一時停止を求める声があっても支持を得ることはないでしょう。これは防衛、医療、金融・銀行といったセキュリティに敏感な業界が岐路に立たされていることを意味します。大きなリスクを受け入れるか、最新かつ最高の ML ツールの使用を認めないことでイノベーションを抑制するかのどちらかなのです。競合他社が (独自のソフトウェアを開発する組織の大半と同様に) MLアプリケーションの構築にオープンソースを利用していることを考えると、スピードとセキュリティは競合するものではなく、互換性のあるものになる必要があります。

Cloudera と ActiveState では、セキュリティとイノベーションは共存できると強く信じています。この共同ミッションは、Cloudera Machine Learning (CML) に信頼できるオープンソースの ML Runtime を提供するために提携されました。拡張性のために PyPI や Conda Forge のような安全でないパブリックソースのみに依存している他の ML プラットフォームとは異なり、Cloudera のお客様はオープンソースの Python エコシステム全体でサプライチェーンのセキュリティを活用できるようになりました。CML をお使いのお客様は、AI プロジェクトがコンセプトからデプロイまで安全であることを、確信することができます。

ActiveState Platform は、Cloudera ML Runtimes の生産を可能にする、安全なファクトリーとして機能します。徹底的に吟味された PyPI ソースコードから Python を自動的にビルドすることで、このプラットフォームはソフトウェア成果物のサプライチェーンレベル (SLSA) の最高基準 (レベル4) に準拠しています。このアプローチにより、お客様は ActiveState Platform を信頼して、必要な Python コンポーネントを正確に製造することができ、コミュニティが構築したホイールを無条件に信頼する必要がなくなります。このプラットフォームは、オープンソースコンポーネントの整合性を監視、維持、検証するツールも提供します。ActiveState はさらに、米国政府の規制への準拠を可能にするSBOMソフトウェア認証を提供しています。

Cloudera の新しい Powered by Jupyter (PBJ) ML Runtimes により、ActiveState Platform で構築された Runtimes と CML の統合がかつてないほど簡単になりました。ActiveState Platform を使ってカスタム MLRuntime を構築し、CML に直接登録することができます。データサイエンティストが、 PyPi から危険な組み込み済みホイールを引っ張り出さなければいけないような時代は終わり、合理化された管理や、強化された観測可能性のある、安全なソフトウェアサプライチェーンへの道が開かれていきます。

次のステップ

ActiveState Platform の無料アカウントを作成すると、プロジェクト用の ML Runtime を自動的に構築できます。ぜひ実際にお試しください。

ホワイトペーパーLimitlessのバナー

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。