Froglog

大規模データ処理とか機械学習とかデータ基盤とか 🐸

データエンジニアから見るクラウド FinOps

このポストについて書籍『クラウドFinOps 第2版』を読んだところ、FinOps にデータマネジメントやデータエンジニアリングに深く関連する内容があるということがわかったのでまとめてみる。書籍について J.R. Storment; Mike Fulle. クラウドFinOps 第2版協調的でリアルタイムなクラウド価値の意思決定 O’Reilly Japan. 2025年3月に出版。ちなみに原著の初版は2019年、第2版は2023年。タイトルのとおり FinOps (後述) について書かれた書籍となっている。著者は両名とも FinOps Foundation の関係者であり、本文中にも随所に FinOps Foundation についての記載が出てくる。私はデータエンジニア、ソフトウェアエンジニアとして日々 AWS その他のクラウドサービスを利用している。クラウドサービス上に例えばデータ基盤等を構築し、ビジネス上の価値を提供している。その一方でクラウドを使うということは料金的な意味でのコストがかかるということでもある。もちろん支払うコストは少ない方がいい。それは分かるのだが、それ以上のクラウドコストについての体系的な考え方を持ち合わせていなかった。毎日それなりの額を使ってるのにね。というのが本書を読もうと思った理由だった。 FinOps とは定義これを書いている2025年8月現在における FinOps Foundation での定義は以下のようになっている。1 “FinOps is an operational framework and cultural practice which maximizes the business value of cloud and technology, enables timely data-driven decision making, and creates financial accountability through collaboration between engineering, finance, and business teams.” ...

ふつうのデータ基盤移行 - Part 4. AI ワークフローで移行作業効率化編

このポストについてデータ基盤移行について書いていくシリーズです。シリーズ一覧はこちらから。前回 Part 3. アーキテクチャ編ではどういったシステム構成にしたかを書きました。今回はその技術スタックへと移行するための苦労と効率化について書きます。 (次は CI/CD の話をすると書きましたが…スマンありゃウソだった) スコープ今回はやや小さいスコープの話です。データ基盤における ETL (ELT) 処理の移行作業を対象としています。移行作業における工数的な課題を AI ワークフローを作って効率化して軽減したという話になります。 ETL 以外の移行作業は今回はスコープ外となります。課題旧データ基盤から新データ基盤へと table およびそれを更新するための処理を移行するにあたり工数面での課題が2つあります。技術スタックの移行 column 命名などの標準化これらについて述べます。技術スタックの移行データ基盤の移行において、新旧の環境で技術スタックは次のようになっています。旧データ基盤 ETL: Glue Job 新データ基盤 ELT: dbt-databricks つまり Glue Job の Python コードを dbt model、つまり SQL に翻訳する必要があり、それなりに手間がかかります。さらにこの Python コードは次のような問題もあり、移行のハードルを上げます。 UDF を実装して特殊な処理を行っているケースがある Spark の API だけでなく Glue の API をふんだんに使っている (なるべく Spark に寄せればいいものを…) (ここ数年の業務で見た中で一番というぐらいに) コード品質が低い column 命名などの標準化旧データ基盤は利用者への配慮があまりない状態で table の schema が作られており、利用者にとって使いにくいものとなっていました。それを改善するため、新データ基盤では次のようなルールを導入しました。 ...

ふつうのデータ基盤移行 - Part 3. アーキテクチャ編

このポストについてデータ基盤移行について書いていくシリーズです。シリーズ一覧はこちらから。前回 Part 2. 技術選定編では技術選定について書きました。今回はそれを踏まえた結果としてどのようなアーキテクチャになったかを書きます。スコープ前回の記事ではプラットフォームとして Databricks を選定したことやその経緯について記載しました。一方、それより詳細な技術スタックを含むシステムアーキテクチャについては示していませんでした。例えばデータ基盤では通常次のような技術スタックについて考える必要があります。データ取込 workflow orchestration ELT (or ETL) storage これらについて述べ、またデータ基盤の階層構造についても説明します。システムアーキテクチャデータ基盤のシステム・アーキテクチャです。よく混同されがちですが、データアーキテクチャではありません。 AWS + Databricks の構成をベースとして構築されています。概要図データ取込現時点ではデータソースとしては S3 に置かれた半構造化データ (JSON)、RDS がメインとなっています。これら2つの取込方法について述べます。まず、S3 のデータは SQL の copy into 文により取り込んでいます。 Get started using COPY INTO to load data | Databricks Documentation Auto Loader を使う方が Databricks 的でありそれも検討したのですが、schema evolution や冪等性など検討した結果として copy into を採用しました。 RDS からのデータ取込は foreign catalog 経由で行います。 ...

読書メモ: LangChainとLangGraphによるRAG・AIエージェント［実践］入門

書籍について西見公宏; 吉田真吾; 大嶋勇樹. LangChainとLangGraphによるRAG・AIエージェント［実践］入門エンジニア選書. 株式会社技術評論社. タイトルのとおりで RAG や AI エージェントについて書かれた本。出版は2024年11月。 LangChain や LangGraph を使ったサンプルコードが豊富に載っている。著者の方は3名ともジェネラティブエージェンツ社の方で、AI エージェントを扱う会社らしい。前作として『ChatGPT/LangChainによるチャットシステム構築［実践］入門』という本もあり、本書の何章かは前作の内容を引き継いでアップデートしているとのこと。個人的にはこれまで LLM や LangChain など追えていなかったので勉強になったし、自分でコードを写経して動かしてみるのがとても面白かった。 AI エージェントまわりの技術を実感したい人におすすめ。ちなみにサンプルコードを動かすためには OpenAI をはじめとする様々なサービスに登録する必要があり、料金が発生するものも含まれている。このポストについて書籍「LangChainとLangGraphによるRAG・AIエージェント［実践］入門」を読んで、面白かったので内容をまとめる。各章ごとに内容を挙げていってもいいのだが、ここではそうはせず、本書に登場する言葉や概念をまとめていくことにする。ちなみにこの記事で紹介するプロンプト等は書籍そのままではなく、少し変更している。実際のプロンプトを知りたい場合は書籍を読んでください。プロンプトエンジニアリングこれは知っている人も多いだろう。プロンプトとは主に自然言語で記述される、LLM に与える命令のこと。 LLM をアプリケーションに組み込む場合はプロンプトはテンプレート化し、入力データをそれに差し込む形となる。 LLM は必ずしも人間の出す命令に対して望ましい回答を出力してくれるわけではない。望ましい回答を出力してもらえるよう、プロンプトを工夫するテクニックがプロンプトエンジニアリングである。本書ではプロンプトエンジニアリングの具体的な手法として次の3つが紹介されていた。ちなみにここで例として示している出力は実際に OpenAI の LLM gpt-4o-mini で出力したものである。 Zero-shot プロンプティング簡単なタスクであれば、特に追加の情報がなくとも (=Zero-shot) 望ましい回答を得ることができる。 system: 次の日本酒のレビューをポジティブ・ネガティブ・中立のどれかに分類してください。 user: ふくよかで芳醇な香り出力ポジティブ Few-shot プロンプティングより複雑なタスクになった場合、デモンストレーションを与えることで回答の精度を高めることができる。いくつかのデモンストレーションを示すため、Zero-shot ではなく Few-shot である。 ...

ふつうのデータ基盤移行 - Part 2. 技術選定編

このポストについてデータ基盤移行について書いていくシリーズです。シリーズ一覧はこちらから。前回は戦略策定 (実際は戦術) までのところを書きました。今回はそれを踏まえた技術選定、およびその後の予算獲得について書いていきます。また、こちらは Databricks Advent Calendar 2024 シリーズ 2 の16日目の記事にもなっています。はいそうです、出落ちですが技術選定として Databricks を選ぶことになります。スコープ前回 Part 1. 戦略策定編では概ねのロードマップが決まり、まずはデータ基盤のリアーキテクチャをやっていくことになりました。リアーキテクチャにおいてはどのような技術スタックを使っていくかが重要な選択になります。データ基盤においてはデータ処理のためのストレージとコンピュートの選択がとても重要です。以降ではこの2つをあわせた DWH 製品の選定について書いていきます。「DHW 製品」という言葉は適切ではないかもしれませんが、ここではストレージ + コンピュートが組み合わさったものぐらいに考えてください。もちろんデータ基盤には他の技術要素もあり、それらも軽くない選択ですがこのポストでは割愛します。 (気が向いたら別記事で書くかも) 技術選定の目的まず何のために技術スタックの置き換え、ひいては技術選定をするかの目的を明確にしておく必要があります。旧データ基盤では次のような技術スタックになっていました。ストレージ: S3 コンピュート: Glue Job, Athena この構成には次のような課題がありました。主にこれらの課題を解決するために DWH 製品の乗り換えを検討することになりました。 dbt との親和性の低さ一貫したガバナンスの欠如 dbt との親和性の低さ前回作成したロードマップにおいて、dbt の導入が課題解決における重要なポイントになっています。 dbt の周辺エコシステムがデータ基盤の課題の解決に大きく貢献すると考えています。また、データパイプラインの開発・運用の負荷も dbt 導入で軽減できそうです。旧データ基盤では Glue Job と Athena クエリを組み合わせた複雑なパイプラインになっており、table を1つ追加するだけでもいろいろなコードに手をいれる必要があります。ほぼ SQL で実装でき、かつ宣言的にパイプライン構築できる dbt は魅力的です。仮に旧データ基盤に dbt を導入するとなると dbt-athena を使うことになります。ただ dbt による Athena のサポートはやや弱く、dbt-athena はコミュニティ版から少し前に移管されたものですし、これを書いている2024年12月の時点で dbt Cloud の Athena のサポートはまだプレビューです。反論がある方もいらっしゃるかもしれませんが、モダンなデータ基盤構築において Athena はやや影が薄い印象があり、dbt のサポートの弱さもこれが原因だと思います。 (ただし直近の re:Invent 2024 の内容からすると潮目が変わる可能性もありそうです) ...

ふつうのデータ基盤移行 - Part 1. 戦略策定編

このポストについてデータ基盤移行について書かれた各社の技術ブログなど見かけることがありますが、割とさらっと書かれていることが多いように思います。本当はいろんな面で苦労があり、記事に表れていない辛さや工夫などがあるはず。ということで今自分が経験している普通の会社の普通のデータ基盤移行について、詳しく記事にしてみようと考えました。何回かに分けてデータ基盤移行のいろいろな側面を、うまくいったこともいかなかったことも含めて書いていきます。とはいえ現在進行形なので、全編書き終わるのはかなり先になりそうです。データ基盤移行のシリーズ一覧はこちらから。移行の背景組織まずイメージしやすいよう、どういった組織におけるデータ基盤移行なのかについて軽く触れておきます。社員規模: 〜100名 web 系の B2C ビジネスデータチームの構成マネージャ: 1名 (データエンジニアリングの経験はほぼない) データエンジニア: 2 -> 3名 (途中で採用) 中小のベンチャー？企業ではありますが、意思決定プロセスは JTC 感があります。私はデータエンジニアのポジションとなっており、その視点からの話であることにご留意ください。小さい組織ということで私は移行の計画から設計、開発その他のあらゆるフェーズに中心的に関わっています。どこもそうだと思いますが、人員的にはまあまあきびしい。よくある中小 IT 企業のよくあるデータ基盤移行の話だと思っていただきたく。大企業ではないのでそこまでちゃんとはしていません。 (ちなみに自分のブログで本件を記事にしていいかは上長に確認の上、OK をもらっています) 旧データ基盤一連のポストでは移行前のデータ基盤のことを「旧データ基盤」と表記するものとします。旧データ基盤は AWS 上で構築されており、アーキテクチャについて簡単に挙げると storage: S3 ETL: Glue Job, Athena SQL engine: Athena workflow orchestration: MWAA のようになっていました。旧データ基盤の開発・運用側 (データエンジニア) としても、また社内の利用者側としてもいろいろと問題が挙がってきてはいました。しかしそれをうまく集約・言語化できていないという状況でした。そんな中でエライ人の鶴の一声で移行しようぜ！ということになり、データ基盤の移行を検討することに相成りました。移行計画を考えるにあたりまず考えたことデータ基盤の移行は組織におけるデータマネジメントにおいて重要な位置づけとなるはず。したがって単なる技術スタックの置き換えというスコープで考えるのはもったいないです。組織のデータマネジメントの未来を想定して、戦略を持って開発・運用を進めるべきであると考えました。そのためにはイシューを明確化しないといけません。でもどの抽象度レベルで？ボトムアップの戦術策定まずは現場感覚、ボトムアップでの課題を明らかにすることを考えました。本来は後述する戦略レベルから先に考えるべきですが、実際に目に見えている課題があり、取り組みやすかったというところで戦術のレベルから考え始めています。(良し悪しはある) 現状のアーキテクチャと運用では戦略策定への対応が難しいため、せめてそのための地ならしとして今見えている課題に対応できる状態にしたいというのもありました。 ...

読書メモ: DMBOK2 第13章データ品質

このポストについて DMBOK2 を読み進めていくシリーズ。今回は第13章「データ品質」について。これまで業務で「データ品質」という言葉が使われることがあったが、意味が限定的だったり人によって定義が違ったりしていた。そのあたりクリアにできるとよい。内容紹介データ品質の定義データ品質の簡潔な定義は「目的に適合している」。データ品質管理の定義は「データを収集し扱うための技法を適用し、企業や地域のデータ利用者の、ニーズや利用に適したデータとすることを保証する活動を計画し、実施し、管理する」。データ基盤担当の仕事柄、データ品質というとどちらかというと上流であるデータソース側の定義が重要だと思っていたが、そうではなく下流であるデータ利用においての観点が起点になるというのが気づきだった。(でも考えてみれば当たり前) ビジネス上の意義ステークホルダーの体験と組織の評判を高める ex. データが正しいことを顧客が信頼し、組織との取引に自信を持てる組織がより有効な成果を出せるようにする ex. ビジネスチャンスの特定と効果的な請求により売上を獲得できる低品質なデータによるリスクとコストを削減する ex. データが正しいかどうかをスタッフが見極める時間が減る ex. 誤ったデータによる誤った意思決定組織の効率と生産性を向上する ex. カスタマーサービスにかかってくる電話が減り、問い合わせを解決できるようになる重要なデータデータ品質管理における第一の原則は、組織とその顧客にとって最も重要なデータに改善努力を集中させること。 ex. 顧客のメールアドレス欄のデータが不完全であれば、顧客にメールで商品情報を送ることができず、潜在的な売上を失う 1通のメールを送るごとに100円の収益が得られることが知られている → データ品質の改善に明確な価値があると言える重要なデータは組織や業界によって異なるが、以下のような用途で使用されることが多い。規制、財務、経営報告事業運営上のニーズ製品の品質と顧客満足度の測定事業戦略、特に競争上の差別化への取り組みデータ品質評価軸データ品質評価軸は、測定可能なデータの特徴または特性。一般的な評価軸は次のとおり。 No. 評価軸説明例 1 有効性Validity データの値が定義された領域の値と一致しているかどうか。 - 数値、日付などのデータ範囲- 電話番号などの書式 2 完全性Completeness 必要なデータがすべて存在するかどうか。カラム, レコード, データセットのレベルがある。 - カラム: 必須カラムにデータが入っているか？- データセット: 都道府県マスタに47都道府県の情報はあるか？ 3 一貫性Consistency データ値が同じアプローチ、評価、価値基準を用いてコード化されていることを保証すること。レコード内、レコード間、経時的な一貫性などがある。 - すべての顧客企業の住所は本社住所となっているか？- 生徒の成績評価は時を経ても同じか？ 4 整合性Integrity データに非一貫性や破綻した関係性がないこと。 - 顧客住所の国がカナダの場合、州としてカナダの州が記載されているか？ 5 適時性Timeliness データの取得または更新後、ユーザーがデータにアクセスできるようになるまでの時間を指す。 - 電力会社は電力需要データを数秒以内に利用して需給調整する必要がある- 政府機関が四半期末の2ヶ月後に GDP 報告書を作成 6 最新性Currency データが最後に更新されてから現在までの期間と、それがまだ正しいという可能性。データセットによって期待される最新性は異なる。 - 国コードは比較的静的- 銀行口座残高は変動的 7 妥当性Reasonableness データパターンが期待に合致しているかどうか。 - 先週のクリック数と比較して今日のクリック数は普通か否か？ 8 一意性/重複排除Uniqueness/Deduplication 現実世界の実体がデータセット内に2つ以上存在しないこと。 - ユーザー ID は重複していないか？- ユーザー ID は異なるが、同一の人物を表していないか？ 9 正確性Accuracy データが「現実の」実体を正しく表している程度。 - ユーザー名は現実世界の個人の名前なのか？- 顧客は実際にそのメールアドレスを使用しているのか？ここでようやく「データ品質」が具体的なものとして見えてきた。測定が比較的容易なものもあれば困難なものもある。 ...

Data Contract CLI から考える Data Contracts ファーストのデータパイプラインの未来

このポストについて Data Contract CLI を触ってみたところ、面白かったのとこれからのデータパイプライン開発について思うところがあったので書いてみる。 Data Contract CLI とは？ datacontract/datacontract-cli Data Contract CLI は data contracts を運用するためのオープンソースのコマンドラインツールである。 data contracts の概念については以前の記事で詳しく書いているのでそちらをご参考いただければと。ただしこちらの記事は1年前のものであり、今回取り上げる Data Contract CLI の登場などを含めて現在では data contracts を取り巻く状況も変わっている可能性があることに注意。 Data Contract CLI は Python で開発されており、pip でインストールすることができる。この記事を書いている時点では v0.10.3 が最新であり、この記事の内容はこのバージョンに基づいている。 Data Contract CLI で扱う data contracts は YAML で定義される前提となっており、その仕様は datacontract/datacontract-specification で決められている。この data contracts に対して Data Contract CLI では次のようなことが行える。 lint によるフォーマットチェックデータソースに接続した上での schema やデータ品質のテスト data contracts の破壊的な変更の検出 JSON Schema や dbt など、他の形式からの／へのインポートとエクスポート以下の図がイメージしやすい。 ...

読書メモ: DMBOK2 第8章データ統合と相互運用性

このポストについて DMBOK2 を読み進めていくシリーズ。今回は第8章「データ統合と相互運用性」について。業務で扱っているデータ基盤はデータ統合が不完全であるため、なんとかしたいと考えている。以降、特に注釈のない引用は DMBOK2 第8章からの引用とする。データストレージと相互運用性とはデータ統合と相互運用性 (DII: Data Integration and Interoperability) は次のように定義されている。アプリケーションや組織内および相互間におけるデータの移動と統合を管理するデータの移動を効率的に管理することがそのビジネス上の意義となる。ほとんどの組織には数多くのデータストアがあり、組織内・組織間でデータを移動させることは IT 組織の重要な任務となっている。複雑さとそれに伴うコストを管理するために、全社的な視点からデータ統合を設計しなければならない。データウェアハウスなどのデータハブによりアプリケーション間のインターフェースの数を削減することができる。 DII のゴールは以下法令を遵守しながら、必要とするフォーマットと時間枠でデータを安全に提供する。共有のモデルとインターフェースを開発することでソリューションを管理するコストと複雑さを軽減する。重要なイベントを特定し、アラートとアクションを自動的に起動する。ビジネスインテリジェンス、アナリティクス、マスターデータ管理、業務効率化の取り組みをサポートする。概念・用語など抽出、変換、取込 DII の中心にあるのが、抽出 (Extract)、変換 (Transform)、取込 (Load) のいわゆる ETL という基本プロセス。抽出ソースから必要なデータを選択し、抽出する抽出されたデータはディスク上やメモリ上にステージングされる業務システムで実行される場合は、少ないリソースを利用するように設計する変換ソースデータを変換してターゲットデータストアの構造と互換性を持つようにするフォーマット変更、構造の変更、意味的変換、重複排除、並べ替えなどがある取込ターゲットシステムに物理的に格納されるか、提供される ELT ターゲットシステムにより多くの変化機能がある場合は、プロセスの順序を ELT にすることができるデータレイクへの取込を行うビッグデータ環境では一般的レイテンシソースシステムでデータが生成されてから、ターゲットシステムでそのデータが利用可能になるまでの時間差。アプローチによってレイテンシの高低が異なる。バッチ利用者や自動的な要求に応えて、定期的にアプリケーションや組織間を一定量まとまって移動させるレイテンシは高いが大量データを処理するときのパフォーマンスがいい低レイテンシを実現するためのマイクロバッチもある変更データキャプチャデータの変更 (挿入・変更・削除) のデータセットを監視し、その差分をターゲットのシステムに渡す DBMS のアクティビティログをコピーし、処理する形で行われることもある準リアルタイムとイベント駆動設定された予定により1日を通して分割された少量のデータセットで処理されたり、データ更新などのイベントが発生したときに処理されたりする一般的にエンタープライズ・サービス・バスを利用して実装される非同期データ提供側は受信側の更新確認を待たずに処理を続行するリアルタイム、同期次のトランザクションを実行する前に、他のアプリケーションからの確認を受け取るまで実行プロセスが待機する非同期と比べて状態管理の負担が少ないが、他のトランザクションをブロックしたり遅延させたりすることもある低レイテンシまたはストリーミングイベントが発生したときにシステムからリアルタイムで連続して流れるリプリケーション分析やクエリによるパフォーマンス低下を防ぐために、トランザクション処理環境にリプリケーション (複製) を使用することがある。多くの DBMS にはリプリケーションを作るためのユーティリティ機能がある。 ...

読書メモ: DMBOK2 第6章データストレージとオペレーション

このポストについて DMBOK2 を読み進めていくシリーズ。今回は第5章「データストレージとオペレーション」について。主にデータベースの運用に関する内容となっており、いわゆるデータベースエンジニアの人には当たり前の話？が書かれている。以降、特に注釈のない引用は DMBOK2 第6章からの引用とする。データストレージとオペレーションとは以下のように定義されている。データの価値を最大化するために、永続化されるデータを設計し、実装し、サポートすること主にデータベース管理者 (DBA: Database Administrators) が行うことになる。次の2つのアクティビティが含まれる。データベースサポート: データベース環境の初期実装からデータの取得、バックアップ、廃棄までのデータライフサイクル関連アクティビティデータベース技術サポート: 技術要件を決め、技術的なアーキテクチャを定義し、技術を実装・管理する事業がデータに依存する企業においてはデータストレージとオペレーションのアクティビティは事業の継続性のために必要不可欠である。ゴールは次のとおりデータライフサイクル全体にわたるデータの可用性を管理するデータ資産の完全性を保証するデータ処理の性能を管理する概念・用語などデータベースアーキテクチャの種類集中型データベース: 単一システム内で使うデータを一箇所にまとている分散型データベース: 多数のノードにデータが配置される連邦型データベース: 自立した複数のデータベースシステムを単一の連邦型データベースに割り当てる仮想化／クラウドプラットフォーム: クラウド上のデータベースを実装データベース処理のタイプ ACID: トランザクションの信頼性のための制約原子性 (Atomicity): 操作はすべて実行されるかまったく実行されないかのどちらか一貫性 (Consistency): トランザクションはシステムが定義するすべてのルールを常に満たさなければならない独立性 (Isolation): 各トランザクションは実行中の他のトランザクションの影響を受けない永続性 (Durability): トランザクションは完了すると元に戻せない BASE: データの量と多様性を受けた、ACID とは異なる考え基本的に利用可能 (Basically Available): ノードの障害発生時もあるレベル以上の可用性を保証するソフトステート (Soft State): データは一定の変動状態にある最終的な一貫性の確保 (Eventual Consistency): データは最終的にすべてのノードで一貫性を保つが、各トランザクションの一貫性が常に確保されているわけではない CAP: 分散システムでは以下のどれか2つしか満たせない一貫性 (Consistency): システムは常に想定どおり動作できなければならない可用性 (Availability): システムは要求時に利用可能でなければならに分断耐性 (Partition Tolerance): システムは部分的な障害の発生時に運用を続行できなければならないデータベース構成上から順により制御された構造であり、かつ古くからあるものとなっている。 ...