抽出 変換 載入
ETL(Extract, Transform, Loadの略)は、データエンジニアリングにおける基本的なプロセスで、データを保存および分析のために移動させ、再構築します。
定義
ETLは、1つ以上の元システムからデータを収集し、そのデータを一貫性があり高品質な形式に整理した後、データウェアハウスやデータベースなどのターゲットリポジトリに挿入する3段階のワークフローを指します。抽出段階では、異なったソースから生データが取得されます。変換段階では、情報のクリーニング、正規化、拡張が行われます。ロード段階では、処理されたデータが後続の処理のために宛先に書き込まれます。この構造化されたパイプラインは、統一的で信頼できるデータに依存する信頼性の高い分析、ビジネスインテリジェンス、オートメーションワークフローにおいて中心的な役割を果たします。ETLは、システムのニーズに応じてバッチまたはストリーミングモードで動作し、効率性のために頻繁に自動化されます。正確なレポート作成やAI駆動のインサイトを可能にするという役割から、現代のデータインフラストラクチャの重要な構成要素となっています。
利点
- ストレージ前のデータをクリーンアップおよび標準化します。
- 分析およびレポート用に統一的で一貫性のあるデータセットを提供します。
- スケジューリングおよびオーケストレーションツールで自動化可能です。
- 複雑なビジネスルールおよびデータ品質チェックをサポートします。
- データ統合プラットフォームおよびツールによって広くサポートされています。
欠点
- 非常に大きなデータセットのインジェストにおいて、初期変換が遅延を引き起こすことがあります。
- ツールのない状態では複雑なパイプラインが保守が難しいです。
- 探索的またはアドホックなデータ利用ケースには柔軟性が少ないです。
- 伝統的なETLでは、ステージング領域および追加のストレージが必要な場合があります。
- ELTの代替案と比較してリアルタイム処理は困難です。
使用例
- 複数のビジネスシステムから中央データウェアハウスを満たします。
- BIダッシュボード用に顧客データをクリーニングおよび正規化します。
- 一貫性があり変換されたデータで分析プラットフォームを供給します。
- 機械学習およびAIモデルのトレーニング用データセットを準備します。
- 旧システムのデータを現代のストレージ環境に移行します。