by Shayde Christian
この記事は、2023/05/22に公開された「One Big Cluster Stuck: Data Asset Standardization」の翻訳です。
データ資産の標準化とは、冗長で矛盾したレポート、プロセス、データベースを、意図的かつ慎重に計画し、エンタープライズ標準に統合することです。データ資産が拡散している状態は、IT環境の健全性に大きな悪影響を及ぼす可能性があります。標準化することで、次のようなメリットがあります。
- 不適切な資産によってプロセス、ノード、クラスターがダウンしてしまう可能性を低減
- コンピュートとストレージの競合と競争を減らす
- プロセスやサービスの不具合、およびそれに伴うトラブルシューティングの労力を削減する
- 冗長な資産の維持・サポートにかかる労力を削減する
データ資産の標準化が環境の健全性に与える影響は、今回のシリーズでご紹介する、どのカテゴリーよりも大きい場合があります。加えて、標準的なデータ定義、データガバナンスの改善、一貫したデータ解釈、データの信頼性の向上、データ主導の意思決定の改善など、ビジネス価値としてのメリットはさらに大きなものがあります。このメリットを最大限に活用するためには、Cloudera Data Catalogをぜひ検討ください。
全データの標準化は数年を要しますが、その効果は確実に証明されているものです。収益が減っていく前に、取り掛かることを強くお勧めします。
レポートの標準化
次の手順を実行してください。
1. 所有者、使用統計、レポート頻度などを含むインベントリレポートの作成。
2. 過去1年間に未使用のレポート、次に過去6ヶ月間に未使用のレポートを探し出す。レポートの頻度を特に確認する。使用頻度が低ければ、年次レポートで十分な場合がある。
3. 顧客とのパートナーシップに応じた、次のようなレポートのアーカイブ方法を選択する。データが適切に活用されていることを確認。
- アーカイブの2週間前、1週間前、および当日に、アーカイブする予定のレポートを所有者に通知し、もしレポートが必要なら、所有者が意義を申し立てられる時間を確保する。
- 通知なしでアーカイブはするが、必要であれば復活できるようにする。
4. 対象となるレポートをアーカイブする。Tableau では、レポートの所有権をシステム ユーザーに割り当てることも選べるので、使用を禁止できる。そして、要求があり、それが正当な場合には簡単に復元できる。
5. 四半期ごとに繰り返す。経験上、レポート在庫の80〜90%は、最短半年でアーカイブすることができる。
- 可視化ツールに抽出ジョブがある場合は、それを停止し、データベースのアーカイブ対象があるか確認する。
6. レポートのリフレッシュレートの妥当性を調査し、交渉が必要であれば行うこともある。
7. 時間をかけて、使用頻度の高いレポートの機能や特徴をエンタープライズ標準のダッシュボードに移植し、余分なレガシーレポートを廃止することで、追加資産を統合する。これは困難で時間のかかる作業であり、通常は環境の健全性ではなく、信頼できるデータを得るための手段として行われるものである。
DBの標準化
- データベース資産、所有権、更新頻度、関連する使用統計をインベントリ化する。
- 元FTEが所有するテンポラリ/テスト用データベースやユーザーデータベースを対象とする。
- 関係者とコミュニケーションをきちんと図る。通知や許可なしにデータベースをアーカイブするべきではない。(仕事を失いたくはないですからね!)
- データベースをアーカイブする。通常、共通のアーカイブデータベースにアーカイブする。経験上、プロダクションテーブルの35~55%削減することが可能である。
- データベース所有者と、更新レートやデータ保持ポリシーを交渉することもある。
- 集中管理されたデータ資産をエンタープライズ基準に標準化することで、データの信頼性を大幅に向上させ、データに基づいた正確な意思決定を行うことができる。なるべく早くこの取り組みを進めることを推奨する。
パイプラインとジョブの標準化
データベース資産の標準化により、1. パイプラインインベントリ(ここでは、あるリポジトリやソースから、別のリポジトリやキュレーションデータセットにデータを移動するプロセスを指す)と、2. ジョブインベントリ(ここでは、環境内でビューを提供したり、データを保持するクエリを指す)のアーカイブの機会が明らかになります。プロセスの標準化は、環境の健全性に対するリターンに比べて労力はかかります。そこで、以下のようなプロセスから始めることをお勧めします。
- 頻繁に失敗するプロセス
- 最も重要であるプロセス
- 最も頻繁に更新されるプロセス
- 最もリソースが必要とされるプロセス
データ資産の標準化の特定や実行に支援が必要でしたら、当社のプロフェッショナルサービスをご利用ください。実際の成功体験と共にサポートいたします。