metadata

ふつうのデータ基盤移行 - Part 6. メタデータ編

このポストについて データ基盤移行について書いていくシリーズです。 シリーズ一覧はこちらから。 前回 Part 5. IaC と CI/CD 編では Terraform による IaC とそれに基づく GitHub Actions による CI/CD について書きました。 今回はみんな大好きメタデータです。 メタデータとはなんぞやという方はこちらの記事も御覧ください。 スコープ 実は今回のデータ基盤の移行のその前から OpenMetadata によるメタデータ管理を始めていました。 その導入、およびそこからの Databricks への移行について紹介します。 DMBOK2 によるとメタデータは3種に分類され、 ビジネスメタデータ テクニカルメタデータ オペレーショナルメタデータ がありますが、ここでは主にビジネスメタデータについて扱います。 あまり新規性のある話にはなりませんが、ケーススタディとしてご参考になれば。 メタデータ管理の導入 私の所属する組織がどのようにメタデータを導入していったか、大まかな流れは次のようになっています。 暗黒時代 OpenMetadata の導入 Databricks への移行 それぞれのフェーズについて述べていきます。 1. 暗黒時代 (2022年〜) 「メタデータ?ナニソレオイシイノ?」という状況がスタート地点です。 私が今の組織にデータエンジニアとして join した直後はまだ組織内で「メタデータ」という言葉が認知されておらず、「ビジネスメタデータがなくて不便」という課題すらも認識されていませんでした。 とはいえ join の直後、データ基盤のデータを眺めてみてもこれらが何なのか人に聞かないとわかりません。 table や column の命名がわかりやすいものになっていない 1 ことが、データ理解しにくさに輪をかけている状況でした。 この時点ではこの記事のタイトルにもあるデータ基盤移行はまだ始まっておらず、旧データ基盤を使っていました。 旧データ基盤では Athena や Glue Job でデータを処理しています。 したがって Glue Data Catalog にビジネスメタデータを置けないかと検討しましたが、難しそうだなという結論になりました。 たしか当時は日本語が扱えないとかだったような。(うろ覚え) ...

2026年5月11日 · soonraah