dbt Incremental Model 解説

主要な設定パラメータ

materialized

'incremental' を指定して増分モデルを有効化

incremental_strategy

データ統合方法を指定:
• 'append': 追加のみ
• 'merge': UPSERT（更新 or 挿入）
• 'delete+insert': 削除してから挿入
• 'insert_overwrite': パーティション上書き

unique_key

merge戦略で重複判定に使用するキー。
単一カラム: 'user_id'
複合キー: ['order_id', 'item_id']

partition_by

パーティション設定（BigQuery）:
{'field': 'date', 'data_type': 'date', 'granularity': 'day'}

cluster_by

クラスタリング設定（BigQuery）:
['user_id', 'product_id']

on_schema_change

スキーマ変更時の動作:
• 'ignore': 変更を無視（デフォルト）
• 'fail': エラーで停止
• 'append_new_columns': 新カラムを追加
• 'sync_all_columns': 全カラムを同期

full_refresh

フルリフレッシュを強制:
コマンド: dbt run --full-refresh
テーブルを削除して再作成

指標	TABLEモデル	Incrementalモデル	改善率
初回実行	45分	45分	同じ
2回目以降	45分	2分	95%短縮
スキャン量	500 GB	5 GB	99%削減
コスト/日	$50	$0.5	99%削減
月間コスト	$1,500	$15	$1,485節約

項目	推奨事項
フィルタ条件	必ず`{% if is_incremental() %}`内にWHERE句を記述。初回実行では全データ取得が必要
パーティション設定	日付カラムでパーティション化すると、delete+insertやinsert_overwriteが効率的
unique_key選択	merge戦略では適切なキーを選択。複合キーも可能
遅延データ対応	過去数日分をlookback_windowで再処理することで遅延データをキャッチ
フルリフレッシュ	定期的に`--full-refresh`でテーブルを再構築し、データ品質を維持
モニタリング	処理行数、実行時間、エラー率を監視。異常があればフルリフレッシュ
スキーマ変更	`on_schema_change`を適切に設定し、カラム追加・削除に対応

⚡ dbt Incremental Model

📖 Incremental Modelとは

🎯 概要

🔄 Incrementalの処理フロー

初回実行と2回目以降の違い

🎯 Incremental戦略

1. append（追加）

2. merge（マージ）

3. delete+insert

4. insert_overwrite

💻 実装例

1. 基本的なIncremental Model（append戦略）

2. merge戦略（ディメンションテーブル）

3. delete+insert戦略（日次集計）

4. 複合キーでのmerge

5. insert_overwrite戦略（BigQuery）

⚙️ 重要な設定オプション

主要な設定パラメータ

materialized

incremental_strategy

unique_key

partition_by

cluster_by

on_schema_change

full_refresh

📊 パフォーマンス比較

実行時間とコストの比較

🎯 ユースケース

1️⃣ イベントログの蓄積

2️⃣ 顧客マスタの更新

3️⃣ 日次売上集計

4️⃣ CDC（Change Data Capture）

5️⃣ 時系列メトリクス

⚠️ 注意点とベストプラクティス

✅ Incrementalを使うべきケース

🔧 高度なテクニック

1. Lookback Window（遅延データ対応）

2. 条件付きロジック

3. 削除レコードの処理

4. カスタムマクロでの共通化

📚 まとめ

🎓 dbt Incremental Modelの重要ポイント