ハイブリッドデータ:AI 大規模活用は魔法ではなく、データである

ハイブリッドデータ:AI 大規模活用は魔法ではなく、データである

by David Moxey
この記事は、2022/10/11に公開された「AI at Scale isn’t Magic, it’s Data – Hybrid Data」の翻訳です。

最近の VentureBeat の記事 、「4 AI trends: It’s all about scale in 2022 (so far)」(「2022年の4つの AI トレンド:拡張性がすべて (今のところ) 」) では、スケーラビリティの重要性が強調されています。記事の全文を読むことをお勧めしますが、私が重要だと感じたポイントは、「AI の大規模活用は、魔法ではなく、データである」です。これは、1992年の大統領選挙で、政治コンサルタントの James Carville 氏が、勝つための鍵は「経済である」と言っていたことを彷彿とさせます。人は、最も重要な点を、当たり前すぎて見逃してしまうことがあります。VentureBeat の記事では、Gartner 社、PwC 社、John Deere 社、そして我々 Cloudera の専門家による洞察を紹介し、AI を大規模活用する上でデータが果たす重要な役割に光を当てています。

次の抜粋が、記事の要点を押さえています。

John Deere 社の新技術担当ディレクターである Julian Sanchez 氏は、「AI の特徴は、まるで魔法のように見えることにあります。”これで何ができるか見てみよう” という考えから ”魔法をスケールアップさせたい” という考えへの自然な飛躍です」と述べました。さらに、AIを大規模に活用するのに必要となるのは、魔法ではなく、データであると語ります。

一旦この主張について考えてみましょう。大規模に活用するAI は、魔法ではなく、データで実現します。データを取り扱うリーダー達の主張は、データを大規模に扱えないなら、AIを大規模に扱うこともできないだろう、というものです。つまり、デジタルトランスフォーメーションができないのです。イノベーションは停滞し、リスクは増大します。データとAIのプロジェクトはコストがかかり、時間もかかるものです。残念ながら、失敗することも多くあります。そこで「データを大規模に扱うには、どうすればいいのか」という疑問が出てくると思います。

その答えは、数年前、データサイエンティストの Hilary Mason 氏(元Cloudera)がAIの相関関係をピラミッドの形で表現し、解説しています。AI には機械学習(ML)が必要であり、ML にはデータサイエンスが必要です。そして、データサイエンスには、分析が必要です。さらに、どれも多くのデータを必要とします。理想は、共通のプラットフォームですべてが一緒に動作することです。

記事の中で、PwC社のデータ分析と AI のパートナーである Bret Greenstein 氏は、「次の年に、組織がどのように AI の拡張に向かうにせよ、AI を”概念実証”として使うことと、そうした取り組みを大規模活用することの大きな違いを理解することが重要です」と指摘します。彼はさらに、「AIを学習ベースのシステムとして考えることが重要です」とも述べています。この意見に私も同意します。概念実証は、組織のデータの限られた、不完全なビューに基づいています。しかし、AI システムをビジネス上の重要な決定を下すために活用する場合、データセットは完全かつ正確であり、さらにリアルタイム(もしくは、ほぼリアルタイム)に更新されてなければなりません。

要点:企業は、AI の大規模活用とビジネス上のデジタルトランスフォーメーションを実現するために、すべてのデータを制御する必要があります。Sanchez 氏や Greenstein 氏が言うように、拡張した AI ソリューションには、データのスナップショットだけでなく、パイプラインとして新しいデータを供給する必要があります。さらに、正しいデータを収集し、大きな負担にならない方法で実行する方法を考えなければなりません。AI の課題は、量、種類、速度など、あらゆる複雑なデータをどう扱うかがあります。また、学習と進化を続ける AI システムに対して、最も完全な方法で最新の状況を提供するために、あらゆる場所にあるデータをどのように利用するか、という課題もあります。

そのためには、テラバイト (TB)、ペタバイト (PB) 級の大量データが必要です。(例:Neo)大量データがなぜ必要かというと、それがモデルの学習方法だからです。さらに、モデルを最新の状態に保つために、継続的に新しいデータを供給し続ける必要があります。ほとんどの AI アプリや ML モデルは、デバイス、機器、資産からのリアルタイムデータと、従来のエンタープライズデータ(業務、顧客、サービス記録)などの異なるタイプのデータを必要とします。

AI モデルのためにデータを集計するだけではありません。データは準備し、分析する必要があります。データの種類によって、リアルタイム、ストリーミング、運用、データウェアハウスなど、様々なタイプの分析が必要になります。Mason 氏が言うように、データ管理、データ分析、データサイエンスのツールはすべて簡単に連携し、共有データすべてに対して実行できる必要があります。そのデータは、クラウドやデータセンター、エッジに存在する可能性が高いです。まとめると、データを大規模に扱うには、データ管理、データ分析、データサイエンス、TB/PB 級のデータ、あらゆる場所にある様々なデータタイプが必要です。そして、データの大規模活用を実現するには、データプラットフォームが必須です。

では、どのようなデータプラットフォームがデータの大規模活用に最適なのでしょうか。まず、データ分析、データ管理、データサイエンスの各ツールが必要です。次に、これらのツールが使いやすく、管理しやすいように統合されていることも重要です。これらはすべて、あらゆる種類の共有データで動作し、共通のメタデータ管理を持ち、理想的にはオープンであるべきです。共通のセキュリティとガバナンスは、現場での運用に移行する場合、かなり重要になります。そして、クラウドやオンプレミスで、パフォーマンスを犠牲にすることなく、膨大な量のデータを扱うことができる拡張性が必要です。

単純なデータクラウドやクラウドデータプラットフォームだけではありません。共通の管理、セキュリティ、ガバナンスツールを備えている必要があります。また、クラウドやオンプレミスのどのような環境でも動作するものでなければなりません。私たちは、どこでもデータを利用できる最新のデータアーキテクチャのための、ハイブリッドデータプラットフォームが最適だと考えています。それは、AIを大規模に活用するのは「データありき」だからです。

AIの大規模活用をお考えでしょうか?詳細はこちらをご確認ください。

 

ホワイトペーパー: 機械学習を成功に導く3つの方法

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。