Posts

Claude Code から Databricks の managed MCP server を使う

このポストについて Databricks Advent Calendar 2025 シリーズ2、8日目の記事。 Databricks 公式の managed MCP server の Claude Code からの利用について書いていく。記事の概要 Databricks の managed MCP server (DBSQL) を Claude Code から利用し、AI エージェントによる Databricks へのクエリ実行を可能にする方法を解説 dbt model 開発などのデータエンジニアリング作業において、Claude Code が自律的にデータベースの状況を確認できるようにすることで、開発効率を向上 Claude Code の hooks 機能を活用し、破壊的なクエリ（INSERT, CREATE TABLE など）の実行を制限することでセキュリティを担保 Databricks CLI を使った短命 PAT の自動取得により、認証情報を設定ファイルにベタ書きせず安全に認証を実現具体的な設定ファイル（.claude/settings.json, .mcp.json, shell script）の実例と、実際の動作例を提示 Prerequisites Claude Code v2.0.60 Databricks CLI v0.279.0 この記事は2025年12月現在の情報や状況を元に書かれている。このあたりは変化が早いので、少ししたら情報が古くなっている可能性が高いことにご注意いただければと。特に Databricks の managed MCP server は現時点では Beta 版となっており、今後インターフェースなどの変更の可能性がある。 Managed MCP Server とは Use Databricks managed MCP servers | Databricks on Google Cloud ここで取り上げる “managed MCP server” とは、Databricks が提供するリモートの MCP server だ。 Databricks 自体には様々な機能があるが、現時点では以下の4種の MCP server が提供されている。 ...

Claude Code を使い dbt model を Test-First で開発する

このポストについて Claude Code による dbt model 開発を test-first でやったらいい感じだったのでそれを紹介する。実際に dbt model におけるある機能を test-first で開発するということをやってみる。なんかしっくりこない Claude Code による dbt model 開発現在本業でデータ基盤の移行を行っており、dbt model をたくさん作る必要がある。 Claude Code を使ってこの作業が楽にならないかなーと考えていたんだけど、それがなかなかしっくりこない。なぜしっくりこないかというと、以降に際して dbt model を開発するために多様なコンテキストが必要になってくるということだと認識している。例えばある1つの ETL 処理を dbt model に移行するにあたり、次のようなコンテキストを使いたい。旧データ基盤の実装コード (Glue Job, Athena など) OpenMetadata に存在する旧データ基盤のメタデータ情報社内の data modeling のルール (命名、その他) 参考にできそうな移行済み model 移行先である Databricks の仕様などなど… このあたりのコンテキストをいい感じに整理して Claude Code が利用できるようにすべきなんだけど、その整理がまだ進んでいない。 (やれよって話なのはわかっています…) というので Claude Code がバシッとハマるという感覚をまだ得られずにいた。 dbt の unit tests で、データ基盤移行でちょっと複雑な処理を dbt model に実装しないといけなくなり、これまでやっていなかった dbt の unit test を導入することにした。 ...

ふつうのデータ基盤移行 - Part 5. IaC と CI/CD 編

このポストについてデータ基盤移行について書いていくシリーズです。シリーズ一覧はこちらから。前回 Part 4. AI ワークフローで移行作業効率化編では移行するための苦労と効率化について書きました。今回はがらっと変わって IaC と CI/CD について書きます。スコープ今回は開発寄りの話です。データ基盤の構築にあたり Terraform を使って IaC (Infrastructure as Code) を実現し、さらにそれに基づいて GitHub Actions による CI/CD (Continuous Integration & Continuous Derivery) 環境を作ったという話をしていきます。 IaC で作りたいアーキテクチャは AWS 上の Databricks 環境とその周辺です。アーキテクチャについて詳しくは Part 3. アーキテクチャ編などをご参照ください。だいたい以下の図のような話です。お気持ち表明こんにちは、初手で絶対に CI/CD 環境を構築するマンです。初手で絶対に CI/CD 環境を構築するマンは、初手で絶対に CI/CD 環境を構築するぞ！という強い気持ちを持っています。 Databricks 上にデータ基盤を構築するにあたり、他社事例でインフラ構築を自動化していないケースを見たこともあります。しかし我々のチームでは PoC 終了後の構築最初期から IaC としてインフラをコード化し、それを CI/CD の仕組みで自動でデプロイすることを決めていました。次のような理由からです。リリースの数だけ自動化のリターンがあるので、最初から自動化しておくのが最もリターンが大きいチームにはジュニアなメンバーもおり、手動の運用はオペミスや production, staging などの環境差発生のリスクが大きい社内で Terraform や GitHub Actions などがよく使われており、導入できる下地があったまだ Databricks にそこまで慣れていない導入初期にこれらの仕組みを入れるのはそれなりにたいへんです。しかしそのたいへんさ以上のメリットがあると判断しました。 ...

データエンジニアから見るクラウド FinOps

このポストについて書籍『クラウドFinOps 第2版』を読んだところ、FinOps にデータマネジメントやデータエンジニアリングに深く関連する内容があるということがわかったのでまとめてみる。書籍について J.R. Storment; Mike Fulle. クラウドFinOps 第2版協調的でリアルタイムなクラウド価値の意思決定 O’Reilly Japan. 2025年3月に出版。ちなみに原著の初版は2019年、第2版は2023年。タイトルのとおり FinOps (後述) について書かれた書籍となっている。著者は両名とも FinOps Foundation の関係者であり、本文中にも随所に FinOps Foundation についての記載が出てくる。私はデータエンジニア、ソフトウェアエンジニアとして日々 AWS その他のクラウドサービスを利用している。クラウドサービス上に例えばデータ基盤等を構築し、ビジネス上の価値を提供している。その一方でクラウドを使うということは料金的な意味でのコストがかかるということでもある。もちろん支払うコストは少ない方がいい。それは分かるのだが、それ以上のクラウドコストについての体系的な考え方を持ち合わせていなかった。毎日それなりの額を使ってるのにね。というのが本書を読もうと思った理由だった。 FinOps とは定義これを書いている2025年8月現在における FinOps Foundation での定義は以下のようになっている。1 “FinOps is an operational framework and cultural practice which maximizes the business value of cloud and technology, enables timely data-driven decision making, and creates financial accountability through collaboration between engineering, finance, and business teams.” ...

ふつうのデータ基盤移行 - Part 4. AI ワークフローで移行作業効率化編

このポストについてデータ基盤移行について書いていくシリーズです。シリーズ一覧はこちらから。前回 Part 3. アーキテクチャ編ではどういったシステム構成にしたかを書きました。今回はその技術スタックへと移行するための苦労と効率化について書きます。 (次は CI/CD の話をすると書きましたが…スマンありゃウソだった) スコープ今回はやや小さいスコープの話です。データ基盤における ETL (ELT) 処理の移行作業を対象としています。移行作業における工数的な課題を AI ワークフローを作って効率化して軽減したという話になります。 ETL 以外の移行作業は今回はスコープ外となります。課題旧データ基盤から新データ基盤へと table およびそれを更新するための処理を移行するにあたり工数面での課題が2つあります。技術スタックの移行 column 命名などの標準化これらについて述べます。技術スタックの移行データ基盤の移行において、新旧の環境で技術スタックは次のようになっています。旧データ基盤 ETL: Glue Job 新データ基盤 ELT: dbt-databricks つまり Glue Job の Python コードを dbt model、つまり SQL に翻訳する必要があり、それなりに手間がかかります。さらにこの Python コードは次のような問題もあり、移行のハードルを上げます。 UDF を実装して特殊な処理を行っているケースがある Spark の API だけでなく Glue の API をふんだんに使っている (なるべく Spark に寄せればいいものを…) (ここ数年の業務で見た中で一番というぐらいに) コード品質が低い column 命名などの標準化旧データ基盤は利用者への配慮があまりない状態で table の schema が作られており、利用者にとって使いにくいものとなっていました。それを改善するため、新データ基盤では次のようなルールを導入しました。 ...

ふつうのデータ基盤移行 - Part 3. アーキテクチャ編

このポストについてデータ基盤移行について書いていくシリーズです。シリーズ一覧はこちらから。前回 Part 2. 技術選定編では技術選定について書きました。今回はそれを踏まえた結果としてどのようなアーキテクチャになったかを書きます。スコープ前回の記事ではプラットフォームとして Databricks を選定したことやその経緯について記載しました。一方、それより詳細な技術スタックを含むシステムアーキテクチャについては示していませんでした。例えばデータ基盤では通常次のような技術スタックについて考える必要があります。データ取込 workflow orchestration ELT (or ETL) storage これらについて述べ、またデータ基盤の階層構造についても説明します。システムアーキテクチャデータ基盤のシステム・アーキテクチャです。よく混同されがちですが、データアーキテクチャではありません。 AWS + Databricks の構成をベースとして構築されています。概要図データ取込現時点ではデータソースとしては S3 に置かれた半構造化データ (JSON)、RDS がメインとなっています。これら2つの取込方法について述べます。まず、S3 のデータは SQL の copy into 文により取り込んでいます。 Get started using COPY INTO to load data | Databricks Documentation Auto Loader を使う方が Databricks 的でありそれも検討したのですが、schema evolution や冪等性など検討した結果として copy into を採用しました。 RDS からのデータ取込は foreign catalog 経由で行います。 ...

読書メモ: LangChainとLangGraphによるRAG・AIエージェント［実践］入門

書籍について西見公宏; 吉田真吾; 大嶋勇樹. LangChainとLangGraphによるRAG・AIエージェント［実践］入門エンジニア選書. 株式会社技術評論社. タイトルのとおりで RAG や AI エージェントについて書かれた本。出版は2024年11月。 LangChain や LangGraph を使ったサンプルコードが豊富に載っている。著者の方は3名ともジェネラティブエージェンツ社の方で、AI エージェントを扱う会社らしい。前作として『ChatGPT/LangChainによるチャットシステム構築［実践］入門』という本もあり、本書の何章かは前作の内容を引き継いでアップデートしているとのこと。個人的にはこれまで LLM や LangChain など追えていなかったので勉強になったし、自分でコードを写経して動かしてみるのがとても面白かった。 AI エージェントまわりの技術を実感したい人におすすめ。ちなみにサンプルコードを動かすためには OpenAI をはじめとする様々なサービスに登録する必要があり、料金が発生するものも含まれている。このポストについて書籍「LangChainとLangGraphによるRAG・AIエージェント［実践］入門」を読んで、面白かったので内容をまとめる。各章ごとに内容を挙げていってもいいのだが、ここではそうはせず、本書に登場する言葉や概念をまとめていくことにする。ちなみにこの記事で紹介するプロンプト等は書籍そのままではなく、少し変更している。実際のプロンプトを知りたい場合は書籍を読んでください。プロンプトエンジニアリングこれは知っている人も多いだろう。プロンプトとは主に自然言語で記述される、LLM に与える命令のこと。 LLM をアプリケーションに組み込む場合はプロンプトはテンプレート化し、入力データをそれに差し込む形となる。 LLM は必ずしも人間の出す命令に対して望ましい回答を出力してくれるわけではない。望ましい回答を出力してもらえるよう、プロンプトを工夫するテクニックがプロンプトエンジニアリングである。本書ではプロンプトエンジニアリングの具体的な手法として次の3つが紹介されていた。ちなみにここで例として示している出力は実際に OpenAI の LLM gpt-4o-mini で出力したものである。 Zero-shot プロンプティング簡単なタスクであれば、特に追加の情報がなくとも (=Zero-shot) 望ましい回答を得ることができる。 system: 次の日本酒のレビューをポジティブ・ネガティブ・中立のどれかに分類してください。 user: ふくよかで芳醇な香り出力ポジティブ Few-shot プロンプティングより複雑なタスクになった場合、デモンストレーションを与えることで回答の精度を高めることができる。いくつかのデモンストレーションを示すため、Zero-shot ではなく Few-shot である。 ...

ふつうのデータ基盤移行 - Part 2. 技術選定編

このポストについてデータ基盤移行について書いていくシリーズです。シリーズ一覧はこちらから。前回は戦略策定 (実際は戦術) までのところを書きました。今回はそれを踏まえた技術選定、およびその後の予算獲得について書いていきます。また、こちらは Databricks Advent Calendar 2024 シリーズ 2 の16日目の記事にもなっています。はいそうです、出落ちですが技術選定として Databricks を選ぶことになります。スコープ前回 Part 1. 戦略策定編では概ねのロードマップが決まり、まずはデータ基盤のリアーキテクチャをやっていくことになりました。リアーキテクチャにおいてはどのような技術スタックを使っていくかが重要な選択になります。データ基盤においてはデータ処理のためのストレージとコンピュートの選択がとても重要です。以降ではこの2つをあわせた DWH 製品の選定について書いていきます。「DHW 製品」という言葉は適切ではないかもしれませんが、ここではストレージ + コンピュートが組み合わさったものぐらいに考えてください。もちろんデータ基盤には他の技術要素もあり、それらも軽くない選択ですがこのポストでは割愛します。 (気が向いたら別記事で書くかも) 技術選定の目的まず何のために技術スタックの置き換え、ひいては技術選定をするかの目的を明確にしておく必要があります。旧データ基盤では次のような技術スタックになっていました。ストレージ: S3 コンピュート: Glue Job, Athena この構成には次のような課題がありました。主にこれらの課題を解決するために DWH 製品の乗り換えを検討することになりました。 dbt との親和性の低さ一貫したガバナンスの欠如 dbt との親和性の低さ前回作成したロードマップにおいて、dbt の導入が課題解決における重要なポイントになっています。 dbt の周辺エコシステムがデータ基盤の課題の解決に大きく貢献すると考えています。また、データパイプラインの開発・運用の負荷も dbt 導入で軽減できそうです。旧データ基盤では Glue Job と Athena クエリを組み合わせた複雑なパイプラインになっており、table を1つ追加するだけでもいろいろなコードに手をいれる必要があります。ほぼ SQL で実装でき、かつ宣言的にパイプライン構築できる dbt は魅力的です。仮に旧データ基盤に dbt を導入するとなると dbt-athena を使うことになります。ただ dbt による Athena のサポートはやや弱く、dbt-athena はコミュニティ版から少し前に移管されたものですし、これを書いている2024年12月の時点で dbt Cloud の Athena のサポートはまだプレビューです。反論がある方もいらっしゃるかもしれませんが、モダンなデータ基盤構築において Athena はやや影が薄い印象があり、dbt のサポートの弱さもこれが原因だと思います。 (ただし直近の re:Invent 2024 の内容からすると潮目が変わる可能性もありそうです) ...

ふつうのデータ基盤移行 - Part 1. 戦略策定編

このポストについてデータ基盤移行について書かれた各社の技術ブログなど見かけることがありますが、割とさらっと書かれていることが多いように思います。本当はいろんな面で苦労があり、記事に表れていない辛さや工夫などがあるはず。ということで今自分が経験している普通の会社の普通のデータ基盤移行について、詳しく記事にしてみようと考えました。何回かに分けてデータ基盤移行のいろいろな側面を、うまくいったこともいかなかったことも含めて書いていきます。とはいえ現在進行形なので、全編書き終わるのはかなり先になりそうです。データ基盤移行のシリーズ一覧はこちらから。移行の背景組織まずイメージしやすいよう、どういった組織におけるデータ基盤移行なのかについて軽く触れておきます。社員規模: 〜100名 web 系の B2C ビジネスデータチームの構成マネージャ: 1名 (データエンジニアリングの経験はほぼない) データエンジニア: 2 -> 3名 (途中で採用) 中小のベンチャー？企業ではありますが、意思決定プロセスは JTC 感があります。私はデータエンジニアのポジションとなっており、その視点からの話であることにご留意ください。小さい組織ということで私は移行の計画から設計、開発その他のあらゆるフェーズに中心的に関わっています。どこもそうだと思いますが、人員的にはまあまあきびしい。よくある中小 IT 企業のよくあるデータ基盤移行の話だと思っていただきたく。大企業ではないのでそこまでちゃんとはしていません。 (ちなみに自分のブログで本件を記事にしていいかは上長に確認の上、OK をもらっています) 旧データ基盤一連のポストでは移行前のデータ基盤のことを「旧データ基盤」と表記するものとします。旧データ基盤は AWS 上で構築されており、アーキテクチャについて簡単に挙げると storage: S3 ETL: Glue Job, Athena SQL engine: Athena workflow orchestration: MWAA のようになっていました。旧データ基盤の開発・運用側 (データエンジニア) としても、また社内の利用者側としてもいろいろと問題が挙がってきてはいました。しかしそれをうまく集約・言語化できていないという状況でした。そんな中でエライ人の鶴の一声で移行しようぜ！ということになり、データ基盤の移行を検討することに相成りました。移行計画を考えるにあたりまず考えたことデータ基盤の移行は組織におけるデータマネジメントにおいて重要な位置づけとなるはず。したがって単なる技術スタックの置き換えというスコープで考えるのはもったいないです。組織のデータマネジメントの未来を想定して、戦略を持って開発・運用を進めるべきであると考えました。そのためにはイシューを明確化しないといけません。でもどの抽象度レベルで？ボトムアップの戦術策定まずは現場感覚、ボトムアップでの課題を明らかにすることを考えました。本来は後述する戦略レベルから先に考えるべきですが、実際に目に見えている課題があり、取り組みやすかったというところで戦術のレベルから考え始めています。(良し悪しはある) 現状のアーキテクチャと運用では戦略策定への対応が難しいため、せめてそのための地ならしとして今見えている課題に対応できる状態にしたいというのもありました。 ...

読書メモ: DMBOK2 第13章データ品質

このポストについて DMBOK2 を読み進めていくシリーズ。今回は第13章「データ品質」について。これまで業務で「データ品質」という言葉が使われることがあったが、意味が限定的だったり人によって定義が違ったりしていた。そのあたりクリアにできるとよい。内容紹介データ品質の定義データ品質の簡潔な定義は「目的に適合している」。データ品質管理の定義は「データを収集し扱うための技法を適用し、企業や地域のデータ利用者の、ニーズや利用に適したデータとすることを保証する活動を計画し、実施し、管理する」。データ基盤担当の仕事柄、データ品質というとどちらかというと上流であるデータソース側の定義が重要だと思っていたが、そうではなく下流であるデータ利用においての観点が起点になるというのが気づきだった。(でも考えてみれば当たり前) ビジネス上の意義ステークホルダーの体験と組織の評判を高める ex. データが正しいことを顧客が信頼し、組織との取引に自信を持てる組織がより有効な成果を出せるようにする ex. ビジネスチャンスの特定と効果的な請求により売上を獲得できる低品質なデータによるリスクとコストを削減する ex. データが正しいかどうかをスタッフが見極める時間が減る ex. 誤ったデータによる誤った意思決定組織の効率と生産性を向上する ex. カスタマーサービスにかかってくる電話が減り、問い合わせを解決できるようになる重要なデータデータ品質管理における第一の原則は、組織とその顧客にとって最も重要なデータに改善努力を集中させること。 ex. 顧客のメールアドレス欄のデータが不完全であれば、顧客にメールで商品情報を送ることができず、潜在的な売上を失う 1通のメールを送るごとに100円の収益が得られることが知られている → データ品質の改善に明確な価値があると言える重要なデータは組織や業界によって異なるが、以下のような用途で使用されることが多い。規制、財務、経営報告事業運営上のニーズ製品の品質と顧客満足度の測定事業戦略、特に競争上の差別化への取り組みデータ品質評価軸データ品質評価軸は、測定可能なデータの特徴または特性。一般的な評価軸は次のとおり。 No. 評価軸説明例 1 有効性Validity データの値が定義された領域の値と一致しているかどうか。 - 数値、日付などのデータ範囲- 電話番号などの書式 2 完全性Completeness 必要なデータがすべて存在するかどうか。カラム, レコード, データセットのレベルがある。 - カラム: 必須カラムにデータが入っているか？- データセット: 都道府県マスタに47都道府県の情報はあるか？ 3 一貫性Consistency データ値が同じアプローチ、評価、価値基準を用いてコード化されていることを保証すること。レコード内、レコード間、経時的な一貫性などがある。 - すべての顧客企業の住所は本社住所となっているか？- 生徒の成績評価は時を経ても同じか？ 4 整合性Integrity データに非一貫性や破綻した関係性がないこと。 - 顧客住所の国がカナダの場合、州としてカナダの州が記載されているか？ 5 適時性Timeliness データの取得または更新後、ユーザーがデータにアクセスできるようになるまでの時間を指す。 - 電力会社は電力需要データを数秒以内に利用して需給調整する必要がある- 政府機関が四半期末の2ヶ月後に GDP 報告書を作成 6 最新性Currency データが最後に更新されてから現在までの期間と、それがまだ正しいという可能性。データセットによって期待される最新性は異なる。 - 国コードは比較的静的- 銀行口座残高は変動的 7 妥当性Reasonableness データパターンが期待に合致しているかどうか。 - 先週のクリック数と比較して今日のクリック数は普通か否か？ 8 一意性/重複排除Uniqueness/Deduplication 現実世界の実体がデータセット内に2つ以上存在しないこと。 - ユーザー ID は重複していないか？- ユーザー ID は異なるが、同一の人物を表していないか？ 9 正確性Accuracy データが「現実の」実体を正しく表している程度。 - ユーザー名は現実世界の個人の名前なのか？- 顧客は実際にそのメールアドレスを使用しているのか？ここでようやく「データ品質」が具体的なものとして見えてきた。測定が比較的容易なものもあれば困難なものもある。 ...