BigQuery シャーディング解説

問題	詳細	影響
テーブル数の爆発	1日1テーブルで年間365個、複数年で数千個のテーブル	管理コスト増大、可視性低下
クエリの複雑化	複数日のデータを取得するにはUNION ALLが必須	クエリ作成が面倒、エラーリスク増加
メタデータオーバーヘッド	各テーブルが独立したメタデータを持つ	メタデータ取得が遅い、API制限に到達
スキーマ変更の困難さ	全テーブルに対して個別にALTER TABLEが必要	大量のDDL実行、時間とコストがかかる
パフォーマンス	ワイルドカードテーブルのスキャンが非効率	パーティションプルーニングより遅い
運用の煩雑さ	テーブルの作成・削除を手動または自動化が必要	運用負荷増大、ミスのリスク
コスト管理	古いテーブルの削除を忘れるとストレージコスト増加	予期しないコスト発生

1

パーティションテーブルの作成

日付パーティションを持つ新しいテーブルを作成。
パーティション列とスキーマを定義。

CREATE TABLE `project.dataset.events_partitioned` PARTITION BY DATE(event_timestamp) CLUSTER BY user_id, event_type AS SELECT event_id, user_id, event_type, event_timestamp, properties FROM `project.dataset.events_*` WHERE _TABLE_SUFFIX BETWEEN '20240101' AND '20241231'

2

データの検証

移行したデータの整合性を確認。
行数、ユニーク値、集計結果を比較。

-- シャーディングテーブルの行数 SELECT COUNT(*) FROM `project.dataset.events_*` WHERE _TABLE_SUFFIX BETWEEN '20240101' AND '20241231' -- パーティションテーブルの行数 SELECT COUNT(*) FROM `project.dataset.events_partitioned` WHERE event_timestamp BETWEEN '2024-01-01' AND '2024-12-31'

3

クエリの書き換え

既存のクエリをパーティションテーブル用に書き換え。
UNION ALLやワイルドカードを削除。

❌ 移行前（シャーディング）

SELECT * FROM `events_*` WHERE _TABLE_SUFFIX BETWEEN '20241120' AND '20241125'

✅ 移行後（パーティション）

SELECT * FROM `events_partitioned` WHERE event_timestamp BETWEEN '2024-11-20' AND '2024-11-25'

4

アプリケーションの切り替え

アプリケーション、ETL、ダッシュボードを新テーブルに切り替え。
段階的にロールアウトして影響を最小化。

5

古いテーブルの削除

移行完了後、一定期間（例: 30日）経過したらシャーディングテーブルを削除。
バックアップを取ってから削除を推奨。

-- 古いシャーディングテーブルを削除 DROP TABLE `project.dataset.events_20241101`; DROP TABLE `project.dataset.events_20241102`; -- ... -- またはスクリプトで一括削除 bq ls --max_results=1000 project:dataset | grep 'events_' | \ xargs -I {} bq rm -f -t project:dataset.{}

項目	推奨事項
移行タイミング	できるだけ早く実施。新規プロジェクトでは絶対にシャーディングを使わない
データ検証	移行前後で行数、ユニーク値、集計結果を必ず比較
段階的移行	最初は過去1年分のみ移行し、問題なければ全データを移行
並行運用期間	30日程度は両方のテーブルを維持し、問題ないことを確認
バックアップ	削除前にCloud Storageへエクスポートまたはスナップショット取得
クエリ最適化	パーティション列でのフィルタを必須にし、プルーニングを活用
モニタリング	移行後のコスト、パフォーマンス、エラー率を監視

項目	シャーディング	パーティショニング	改善
テーブル管理	365個/年	1個	99.7%削減
クエリの複雑さ	UNION ALL必須	通常のSELECT	シンプル
スキャン効率	テーブルメタデータ読込	パーティションプルーニング	10-100倍高速
スキーマ変更	全テーブルにALTER	1回のALTER	99%削減
データ保持期間	手動削除	自動削除可能	自動化
コスト最適化	難しい	クラスタリング併用	さらに削減
APIコール数	テーブル数に比例	1回	99%削減

🔀 BigQuery シャーディング

📖 シャーディングとは

🎯 概要

シャーディングの構造

🆚 シャーディング vs パーティショニング

❌ シャーディングの問題点

🔍 ワイルドカードテーブルを使ったクエリ

基本的なワイルドカードクエリ

ワイルドカードパターン

全テーブル

年月指定

範囲指定

複数パターン

日付範囲でのクエリ例

集計クエリ例

🔄 パーティショニングへの移行

移行手順

💻 移行スクリプト例

Python スクリプト（全テーブルを統合）

bqコマンドでの移行

✅ ベストプラクティス

🎯 移行時の推奨事項

📊 パーティショニングの利点（詳細）

📚 まとめ

🎓 BigQueryシャーディングの重要ポイント