データ資産の標準化

by Shayde Christian
この記事は、2023/05/22に公開された「One Big Cluster Stuck: Data Asset Standardization」の翻訳です。

データ資産の標準化とは、冗長で矛盾したレポート、プロセス、データベースを、意図的かつ慎重に計画し、エンタープライズ標準に統合することです。データ資産が拡散している状態は、IT環境の健全性に大きな悪影響を及ぼす可能性があります。標準化することで、次のようなメリットがあります。

  • 不適切な資産によってプロセス、ノード、クラスターがダウンしてしまう可能性を低減
  • コンピュートとストレージの競合と競争を減らす
  • プロセスやサービスの不具合、およびそれに伴うトラブルシューティングの労力を削減する
  • 冗長な資産の維持・サポートにかかる労力を削減する

データ資産の標準化が環境の健全性に与える影響は、今回のシリーズでご紹介する、どのカテゴリーよりも大きい場合があります。加えて、標準的なデータ定義、データガバナンスの改善、一貫したデータ解釈、データの信頼性の向上、データ主導の意思決定の改善など、ビジネス価値としてのメリットはさらに大きなものがあります。このメリットを最大限に活用するためには、Cloudera Data Catalogをぜひ検討ください。

全データの標準化は数年を要しますが、その効果は確実に証明されているものです。収益が減っていく前に、取り掛かることを強くお勧めします。

レポートの標準化

次の手順を実行してください。

1. 所有者、使用統計、レポート頻度などを含むインベントリレポートの作成。

2. 過去1年間に未使用のレポート、次に過去6ヶ月間に未使用のレポートを探し出す。レポートの頻度を特に確認する。使用頻度が低ければ、年次レポートで十分な場合がある。

3. 顧客とのパートナーシップに応じた、次のようなレポートのアーカイブ方法を選択する。データが適切に活用されていることを確認。

  • アーカイブの2週間前、1週間前、および当日に、アーカイブする予定のレポートを所有者に通知し、もしレポートが必要なら、所有者が意義を申し立てられる時間を確保する。
  • 通知なしでアーカイブはするが、必要であれば復活できるようにする。

4. 対象となるレポートをアーカイブする。Tableau では、レポートの所有権をシステム ユーザーに割り当てることも選べるので、使用を禁止できる。そして、要求があり、それが正当な場合には簡単に復元できる。

5. 四半期ごとに繰り返す。経験上、レポート在庫の8090%は、最短半年でアーカイブすることができる。

  • 可視化ツールに抽出ジョブがある場合は、それを停止し、データベースのアーカイブ対象があるか確認する。

6. レポートのリフレッシュレートの妥当性を調査し、交渉が必要であれば行うこともある。

7. 時間をかけて、使用頻度の高いレポートの機能や特徴をエンタープライズ標準のダッシュボードに移植し、余分なレガシーレポートを廃止することで、追加資産を統合する。これは困難で時間のかかる作業であり、通常は環境の健全性ではなく、信頼できるデータを得るための手段として行われるものである。 

DBの標準化

  1. データベース資産、所有権、更新頻度、関連する使用統計をインベントリ化する。 
  2. 元FTEが所有するテンポラリ/テスト用データベースやユーザーデータベースを対象とする。 
  3. 関係者とコミュニケーションをきちんと図る。通知や許可なしにデータベースをアーカイブするべきではない。(仕事を失いたくはないですからね!)
  4. データベースをアーカイブする。通常、共通のアーカイブデータベースにアーカイブする。経験上、プロダクションテーブルの35~55%削減することが可能である。 
  5. データベース所有者と、更新レートやデータ保持ポリシーを交渉することもある。
  6. 集中管理されたデータ資産をエンタープライズ基準に標準化することで、データの信頼性を大幅に向上させ、データに基づいた正確な意思決定を行うことができる。なるべく早くこの取り組みを進めることを推奨する。

パイプラインとジョブの標準化

データベース資産の標準化により、1. パイプラインインベントリ(ここでは、あるリポジトリやソースから、別のリポジトリやキュレーションデータセットにデータを移動するプロセスを指す)と、2. ジョブインベントリ(ここでは、環境内でビューを提供したり、データを保持するクエリを指す)のアーカイブの機会が明らかになります。プロセスの標準化は、環境の健全性に対するリターンに比べて労力はかかります。そこで、以下のようなプロセスから始めることをお勧めします。

  • 頻繁に失敗するプロセス
  • 最も重要であるプロセス
  • 最も頻繁に更新されるプロセス
  • 最もリソースが必要とされるプロセス

データ資産の標準化の特定や実行に支援が必要でしたら、当社のプロフェッショナルサービスをご利用ください。実際の成功体験と共にサポートいたします。

 

Cloudera Japan Marketing
この著者の他の記事

コメントする

あなたのメールアドレスは公開されません。また、コメントにリンクを貼ることはできません。