dbt × BigQuery キャッシュ最適化

シナリオ: Eコマース分析基盤

Staging: 軽量な整形 (VIEW)

stg_orders, stg_customers, stg_products
基本的なリネーム、型変換のみ

Intermediate: ビジネスロジック (TABLE)

int_order_details: 注文、顧客、商品をJOIN
int_customer_metrics: 顧客ごとの集計指標
→ 下流の複数モデルで再利用される
→ TABLE化でキャッシュを固定

Mart: 最終アウトプット (VIEW or TABLE)

fct_daily_sales (TABLE): 日次売上集計
dim_customers_enriched (VIEW): 顧客マスタ
rpt_sales_dashboard (VIEW): ダッシュボード用
→ すべてint_order_detailsを参照
→ 同じIntermediateモデルのキャッシュを活用

-- models/intermediate/int_order_details.sql {{ config( materialized='table', partition_by={ 'field': 'order_date', 'data_type': 'date' } ) }} SELECT o.order_id, o.order_date, o.customer_id, c.customer_name, c.customer_segment, p.product_id, p.product_name, p.category, o.quantity, o.unit_price, o.quantity * o.unit_price AS line_total FROM {{ ref('stg_orders') }} o LEFT JOIN {{ ref('stg_customers') }} c ON o.customer_id = c.customer_id LEFT JOIN {{ ref('stg_products') }} p ON o.product_id = p.product_id -- ↑ この重いJOINは1日1回だけ実行 -- ↓ 下流の複数モデルはこのTABLEを参照

-- models/marts/fct_daily_sales.sql {{ config(materialized='table') }} SELECT order_date, customer_segment, category, COUNT(DISTINCT order_id) AS order_count, SUM(line_total) AS total_sales FROM {{ ref('int_order_details') }} -- ← TABLE参照 GROUP BY 1, 2, 3 -- ✅ int_order_detailsが既にTABLE化されているので高速

-- models/marts/rpt_sales_dashboard.sql {{ config(materialized='view') }} SELECT customer_segment, category, SUM(line_total) AS total_revenue, COUNT(DISTINCT customer_id) AS unique_customers FROM {{ ref('int_order_details') }} -- ← 同じTABLE参照 WHERE order_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY) GROUP BY 1, 2 -- ✅ 同じint_order_detailsを参照するので一貫性がある -- ✅ 軽量な変換なのでVIEWで十分

✓	項目	説明
☐	Intermediate層をTABLE化	複雑なJOIN・集計はIntermediateでTABLEとして物理化
☐	共通モデルの抽出	複数の下流モデルが使う処理を共通Intermediateに
☐	ephemeralの最小化	共有モデルはephemeralではなくtable/viewに
☐	非決定的関数の回避	CURRENT_TIMESTAMP等は使用を最小化
☐	パーティション設定	日付カラムでパーティション化してスキャン削減
☐	Incrementalの活用	大量データはIncrementalで差分更新
☐	dbt_project.ymlで統一	レイヤーごとのマテリアライゼーションを統一設定
☐	スケジュール最適化	実行順序を最適化（Intermediate → Mart）
☐	ドキュメント化	キャッシュ戦略と依存関係を文書化
☐	モニタリング設定	クエリコストとキャッシュヒット率を監視

🎯 dbt × BigQuery キャッシュ最適化

📖 基本原則

🎯 キャッシュ最適化の核心

✨ dbtがキャッシュに有利な理由

🏗️ 推奨されるdbtレイヤー設計

3層アーキテクチャ with キャッシュ最適化

✅ ベストプラクティス

1️⃣ 共通のIntermediateモデルを作る

2️⃣ Ephemeral Modelingを避ける

3️⃣ Incremental Modelを活用

4️⃣ dbt_project.ymlで一括設定

❌ アンチパターン

キャッシュ効率を下げる設計

🎯 実践例：効果的なレイヤー設計

📊 パフォーマンス比較

アンチパターン vs ベストプラクティス

🔧 高度なテクニック

📋 チェックリスト

🎯 キャッシュ最適化のためのdbt設計チェックリスト

📚 まとめ

🎓 dbt × BigQueryキャッシュ最適化の要点