メダリオンアーキテクチャとは

メダリオンアーキテクチャとは、データレイクハウス内のデータをBronze、Silver、Goldの3層に分け、品質と使いやすさを段階的に高める設計です。データパイプラインで取り込んだ生データをBronzeに置き、検証・整形したものをSilverへ進め、経営レポートやAIに使いやすい集計済みデータをGoldにします。料理でいえば、素材、下ごしらえ、完成皿を分けるような考え方に近いでしょう。

3層で見るデータ品質

Bronzeは元データをなるべく忠実に残す層、Silverは重複や欠損を直して意味をそろえる層、Goldは部門や経営が見やすい形にまとめる層です。銅、銀、金という名前は、データの加工段階を直感的に示すラベルです。ただしDatabricks Docsは、この構成を推奨ベストプラクティスとしつつ、必須ではないとも説明しています。大事なのは名前をそろえることではなく、どの段階のデータを誰が使うかを明確にする点でしょう。

経営目線では、Goldだけを見ていると問題の根本が分かりません。数字がおかしいときにSilverやBronzeまで戻れると、データの変換ミスなのか、そもそもの入力ミスなのかを切り分けられます。データオブザーバビリティデータカタログと組み合わせると、AIが参照するデータの出どころと品質段階を説明しやすくなるでしょう。

TopicBronzeは「低品質で捨てる層」ではない

銅、銀、金という名前のせいで、Bronzeは劣ったデータの置き場に見えるかもしれません。実際には逆で、生データを忠実に残すことで再処理や監査が可能です。Databricks Docsも、Bronze層は元の形式と履歴を残す単一の真実の源として機能すると説明しています。完成品だけでなく、素材を残すことに意味があります。

メダリオンアーキテクチャに関するよくある質問

Bronze、Silver、Goldは必ず3層で作る必要がありますか?
必須ではありません。3層は分かりやすい整理ですが、会社のデータ量や用途によっては少なくても構いません。大切なのは、未加工、検証済み、業務利用向けの区別を利用者が理解できることです。
Gold層だけをAIに使えば十分ですか?
業務回答にはGold層が向くことが多いですが、原因調査や再学習ではSilverやBronzeが必要になる場合があります。AIに使う層を決める前に、回答の目的と必要な鮮度、監査の要否を確認するのが安全です。

あわせて読みたい記事