このポストについて
なんか個人的にデータマネジメントの機運が高まってきたので、ずっと積ん読していた DAMA-DMBOK を読んでいこうかなと。
で、せっかくなのでデータ関係の皆さんがよくやっているように自分としても読書メモをまとめてみようと思った。
内容を網羅するのではなく、現場のデータエンジニアとして活動した経験を踏まえて自分なりの観点でまとめてみたい。
今回は第1章「データマネジメント」で、それ以降は関心がある章をつまみ食い的に読んでいく。
DAMA-DMBOK とは
DAMA とは DAta Management Association の略であり、
世界各地に80の支部を持ち、8,000名を越える会員を擁する全世界のデータ専門家のための国際的な非営利団体です。 特定のベンダーや技術、手法に依存しないことを前提として、データや情報、知識をエンタープライズの重要な資産として管理する必要性の理解を促し、この分野の成長を推進しております。
– 一般社団法人 データマネジメント協会 日本支部(DAMA Japan)
とのこと。
この DAMA が刊行しているのがデータマネジメント知識体系ガイド (The DAMA Guide to Data Management Body of Knowledge) であり、その略称が DMBOK である。
DAMA DMBOKは、データマネジメントプロフェッショナルにとって有益な資料かつ指針となることを目指し、データ管理のもっとも信頼できる入門書となるよう編集されています
– 一般社団法人 データマネジメント協会 日本支部(DAMA Japan)
IT 業界歴の長い人なら PMBOK というプロジェクトマネジメントについて書かれた本をご存知かもしれないが、あれのデータマネジメント版だと思っていい。
私としてはデータマネジメントの教科書的なものだと考えている。
2023年現在における最新版は2018年の第2版となっている。
以降では DMBOK2 とする。
5年前なのでやや古いと思うかもしれないが、内容的には特定技術について書かれているわけではなく、ある程度抽象度が高い話になっているので陳腐化はしにくい。
データマネジメントとは
以降、特に注釈のない引用は DMBOK2 第1章からの引用とする。
データマネジメントとは、データとインフォメーションという資産の価値を提供し、管理し、守り、高めるために、それらのライフサイクルを通して計画、方針、スケジュール、手順などを開発、実施、監督することである。
この一文にいろいろと集約されているので見ていこう。
データとインフォーメーション
ここでいう「データ」と「インフォメーション」は DIKW モデルにもとづく解釈でよい。
データはインフォメーションの原材料であり、インフォメーションは意味と目的、つまりコンテキストを付与されたデータと言える。
- ex. 前四半期の売上レポートは「インフォメーション」、それの元になっている DWH のデータが「データ」
データマネジメントにおいては特にこのデータとインフォーメションを扱う。
資産
資産とは経済的資源であり、所有可能、管理可能で、それ自体に価値があるか、価値を生み出すことができるものである。
この定義からデータは資産であるとみなされ、したがって資産として組織で管理される必要がある。
金融資産などと同じ面もあるが異なっている面も多くあり、例えば使用しても失われない。
このような特性が管理方法に影響する。
資産としてのデータは本来はデータにかかるコスト、データから得る利益を測定して経済的観点から評価されるべき。
しかしまだそのための基準はないとのこと。
なので実質的に経済的観点からの評価を実行するのはとてもむずかしいと思われる。
データ基盤がコストセンターだと認識されているような組織だとこのあたり必要になってくるのかもしれない。
提供し
データライフサイクル (後述) においてはデータの生成と利用が最も重要である。
データは利用されて初めて価値を生む。
データにはそれぞれ生産者と利用者がいる。
社内の一つの部門内でデータ生産・利用されることもあるが、一方で生産と利用が別部門であることもある。
よってデータライフサイクルを考えるためには組織横断の全社的な視点が必要になってくる。
管理し
データを資産として管理するためには質の高いメタデータが必要となる。
メタデータとはデータについてのデータという意味。
データを記述するものがなければ意味のある管理はできないということ。
メタデータもデータの一種であるためデータとして管理される必要がある。
多くの場合、メタデータ管理がデータマネジメント全体を改善する出発点となる。
守り
データは資産であると同時にリスクでもある。
なくなったり、盗まれたり、誤用されたりもするため、そうならないようにリスクを管理する。
不正確・不完全・期限切れなど低品質のデータからは正しくないインフォーメーションが得られるリスクや誤用されるリスクがある。
リスクを避けるためにデータを用いた意思決定に必要なデータ品質が必要となる。
当然セキュリティの話もある。
昨今は個人情報への関心も高まっており、それらは保護されなければならない。
高める
データ品質を高める、または高品質であることを保証しなければならない。
DMBOK2 ではデータ品質に重きを置いており、
これがデータマネジメントの根幹である。
とまで言い切っている。
利用者からすると品質の問題が明らかになるまではデータの信頼性は高いものと想定されるが、一度信頼が失われると取り戻すのは簡単ではない。
データ基盤の同じデータに対して、5分前にクエリした結果と今クエリした結果が違っていると「これ大丈夫かな」ってなりますよね?
(何らかの原因によるデータ生成処理の再実行など、運用上でよく起こりうる話)
データの品質問題にたいしょするために収益の10〜30%を費やしていると専門家は考えている。IBM は米国において低品質のデータのために費やしたコストは2016年で3.1兆ドルであったと推定している。
とあるとおり、低品質のデータにはコストとリスクがかかる。
一方で高品質のデータからはより高い生産性や競合に対する優位性などさまざまな恩恵が得られる。
ライフサイクル
データにはその発生から破棄に至るまでのライフサイクルがある。
上記はその概念的な図だが、実務におけるデータライフサイクルを詳細に記述するのは困難を伴う。
生産者から利用者までの経路、すなわちデータリネージを表現する必要がある。
データ品質、メタデータ、セキュリティなどはライフサイクル全体を通して管理していかなければなない。
計画、方針、スケジュール
データから偶然に価値が生まれることはなく、様々な側面から計画が必要である。
より高品質なデータを目指す計画においては、アーキテクチャ、モデリング、その他設計機能に対して、戦略的なアプローチが必要である。業務と IT のリーダーが戦略的に連携することも欠かせない。
組織横断であるため、(理想的には) CDO がリーダーシップを発揮、ビジョンや目的を示し、自らそれにコミットメントしないと効果的なデータマネジメントにならない。
CDO がいる組織はまだ多くないため、その状況でこの役割を誰が担うかというのがデータマネジメントの成果に大きな影響を与えるはず。
データマネジメント・フレームワーク
データマネジメントには様々な側面がある。
データマネジメントを総合的に理解し、その構成要素間の関係を理解するためにいくつかのフレームワークが提案されている。
ここでは DMBOK2 で紹介されたフレームワークのうちのいくつかを紹介する。
DAMA-DMBOK フレームワーク
データマネジメント全体を構成する知識領域についてまとめたもの。
この DAMA ホイール図はおそらく一番有名なもので、見たことある人も多いのでは。
データマネジメントにどういった知識領域があるのかが一覧できる。
ただデータガバナンスが中心にあるというだけで、それ以外の各領域の関係性はわかりにくいかもしれない。
こちらの知識領域コンテキスト図も DAMA-DMBOK フレームワークの一部である。
DMBOK1 のときに最も人気のあった図とのこと。
最初ぱっとこれを見たときはピンとこなかったが、ある事業ドメインにおけるデータの流れやコンテキストを表しているというのに気づきとても有用だと思った。この内容を各事業ドメインで整理すると、組織のデータについての理解が大きく捗りそう。(めっちゃたいへんだけど)
上記の解釈は誤り。
この図は事業ドメインごとではなく、知識領域、つまり DAMA ホイール図に記載の「データガバナンス」「アーキテクチャ」などの各要素ごとに作られる。
この図により各知識領域を簡潔に定義する。
DMBOK2 では各章でそれぞれの知識領域について書かれており、章の冒頭にこの知識領域コンテキスト図が記載されている。
ある知識領域の概略をつかむにはその図を見ればよい。
DMBOK ピラミッド
ほとんどの組織はデータマネジメントの戦略を決めてからデータ管理を始めるということができず、走りながらデータマネジメントの改善に取り組むことになる。
その中でどういったステップをたどるかを示してくれるのが Peter Aiken’s Framework である。
- Phase 1 (青): データの保存、統合
- Phase 2 (黃): データ品質、アーキテクチャ、メタデータ
- Phase 3 (緑): ガバナンスと利用推進
- Phase 4 (赤): 分析などの高度な利用
組織のデータマネジメントは Phase 1 -> 4 の順で進めていく。
Phase の順序は上下関係にはなっておらず、上下関係は知識領域間の依存関係を示している。
この図は実務でデータマネジメントを進めるにあたり、良い指針となる。
所感
第1章はタイトルのとおりデータマネジメントについて俯瞰するのに良かった。
品質、ライフサイクル、リスク管理、メタデータなどの各要素がそれぞれに影響しあっていることが理解できた。
これからその各要素を詳しく見ていくことになる。
組織横断的なデータの扱いを始めてからそんなに経っていない組織だと、CDO はおろかデータマネジメントに関心があるリーダー層がいないというケースが多いのではないだろうか。
CDO が無理なら CTO あたりに関心を持ってコミットしてもらいたい。
それもできない場合は現場のデータエンジニアやアナリストなどが進めていくしかないが、それは厳しい状況でのデータマネジメントになりそう。
エライ人を巻き込む政治力のようなものが問われる。