AWS | Froglog

データエンジニアから見るクラウド FinOps

このポストについて書籍『クラウドFinOps 第2版』を読んだところ、FinOps にデータマネジメントやデータエンジニアリングに深く関連する内容があるということがわかったのでまとめてみる。書籍について J.R. Storment; Mike Fulle. クラウドFinOps 第2版協調的でリアルタイムなクラウド価値の意思決定 O’Reilly Japan. 2025年3月に出版。ちなみに原著の初版は2019年、第2版は2023年。タイトルのとおり FinOps (後述) について書かれた書籍となっている。著者は両名とも FinOps Foundation の関係者であり、本文中にも随所に FinOps Foundation についての記載が出てくる。私はデータエンジニア、ソフトウェアエンジニアとして日々 AWS その他のクラウドサービスを利用している。クラウドサービス上に例えばデータ基盤等を構築し、ビジネス上の価値を提供している。その一方でクラウドを使うということは料金的な意味でのコストがかかるということでもある。もちろん支払うコストは少ない方がいい。それは分かるのだが、それ以上のクラウドコストについての体系的な考え方を持ち合わせていなかった。毎日それなりの額を使ってるのにね。というのが本書を読もうと思った理由だった。 FinOps とは定義これを書いている2025年8月現在における FinOps Foundation での定義は以下のようになっている。1 “FinOps is an operational framework and cultural practice which maximizes the business value of cloud and technology, enables timely data-driven decision making, and creates financial accountability through collaboration between engineering, finance, and business teams.” ...

CDC + Apache Iceberg で Amazon Athena にデータを取り込む

このポストについてこのポストは Distributed computing Advent Calendar 2023 の3日目の記事になります。 1日目、2日目に続いて Apache Iceberg について書きますが、このポストでは Iceberg の実用例を書きます。 AWS DMS による CDC の結果を Apache Iceberg 形式にして Amazon Athena でクエリできるようにするという内容になります。やっていることとしては Perform upserts in a data lake using Amazon Athena and Apache Iceberg | AWS Big Data Blog で紹介されている内容と近いですが、実務としての背景や工夫したところなどを書いていきます。背景私の所属する事業会社では日々プロダクトから様々なデータが発生しており、プロダクトの分析やレポーティング、ML など様々な用途で利用されている。それを支える基盤としてデータ基盤が存在している。データ基盤ではクエリエンジンとして Amazon Athena を使っている。ストレージとしては S3 を使用しており、主に分析用として Parquet 形式でデータが置かれる。ここに業務用の operational な database から日次でデータを取り込んでいる。データソースは RDS (Aurora MySQL) であり、比較的大きなデータとなっている。これまではこの RDS -> S3 のデータ取り込みには RDS の S3 snapshot export という機能を利用していた。この機能では比較的簡単な設定により、バックアップ用のスナップショットの内容を S3 に export することができる。ちなみに対象 database のスナップショットのサイズは数十 TB ある。 ...

Glue Schema Registry の導入を断念した話

業務で AWS Glue Schema Registry を使おうとしたけど、やっぱりやめたというお話。 Glue Schema Registry What’s Schema Registry? AWS Glue Schema Registry は2020年に発表された AWS の機能だ。 Control the evolution of data streams using the AWS Glue Schema Registry 一方、私が最初に schema registry 的なものを見たのは Confluent の例。 Schema Registry の概要 - Confluent AWS の Glue Schema Registry はこれより後のリリースであり、同等のものの AWS マネージド版といったところだろうか。 schema registry で何ができるかは Confluent のリンク先の図がとてもわかりやすいので参考にしていただきたい。 Glue Schema Registry もだいたい同じで、ストリーム処理のための機能である。 Glue Schema Registry で解決したい課題とその機能データ基盤上のストリーム処理における schema 管理はバッチ処理のそれとは異なる難しさがある。これは schema evolution と呼ばれる問題で以前のポストでも述べている。バッチ処理おじさんがストリーム処理のシステムを開発するにあたって調べたこと難しい点として以下のようなことが挙げられる。 ...

いまさらながらのデータレイク

最近よく聞かれるようになった「データレイク」という概念にあまりついていけていなかったため、いまさらながらざっと調べてみた。データレイクとは Wikipedia によると最初にこの言葉を使ったのは Pentaho 社の CTO である James Dixon らしい。その時の彼のブログ (10年前…) を読むと、既にあったデータマートに対して Only a subset of the attributes are examined, so only pre-determined questions can be answered. The data is aggregated so visibility into the lowest levels is lost –Pentaho, Hadoop, and Data Lakes - James Dixon’s Blog というような問題意識からデータレイクというコンセプトを提案したようだ。最近？のデータレイクについてはベンダー等の記事が参考になる。データレイクとは - AWS データレイクとは？ - talend データレイクとは？データレイクの落とし穴と効果 - Informatica 書籍だと『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』がいいだろうか。データレイクの概要と AWS が考えている構築・運用がざっとわかる。 Amazon で検索した限りだと現時点でタイトルに「データレイク」を含む和書はこれのみだった。 ...