ETLとは?
Extract(抽出)・Transform(変換)・Load(ロード)の略。異なるシステムのデータをデータウェアハウスやデータレイクに統合するデータパイプライン処理
詳細解説
ETL(Extract・Transform・Load)は、複数の異なるソースシステム(基幹システム・Webサービス・IoTセンサー等)からデータを抽出(Extract)し、目的のデータ形式・品質に変換・整形(Transform)した上で、データウェアハウス・データレイク・DWH等の分析用ストレージに格納(Load)するデータ統合処理の総称です。データを分析・活用する前の「仕込み」工程に相当し、データパイプラインの核心部分を担います。ETLの3ステップ詳細は次の通りです。Extract(抽出):RDBMSからのSQL SELECT・APIからのJSON/XML取得・CSVファイル読み込み・ログファイルのパース・Webスクレイピング等でデータをソースから取り出します。Transform(変換):データクレンジング(欠損値補完・異常値除去・文字コード統一)・データ型変換(文字列→日付型等)・正規化・デデュープ(重複除去)・集計・結合・エンコーディング変換・ビジネスルールの適用(日本円→米ドル変換等)を行います。Load(ロード):変換済みデータをデータウェアハウス・データレイク・データマートに格納します。フルロード(全データ置き換え)と増分ロード(差分のみ追加)があります。代表的なETLツールはAWS Glue・Azure Data Factory・Google Cloud Dataflow・Apache Spark・Talend・Informatica・dbt(Data Build Tool)です。ELT(Extract・Load・Transform)はデータをまずロードしてから変換する現代的なアプローチで、クラウドDWH(BigQuery・Snowflake)の処理能力活用に適しています。ITパスポートでは「ETLの3ステップの意味」「データウェアハウス・データレイクとの関係」「ELTとの違い」が出題されます。
ITパスポートでの出題ポイント
- 1Extract(抽出)→Transform(変換)→Load(格納)の3段階データ統合処理
- 2異なるシステムのデータをDWH・データレイクに統合するパイプライン
- 3Transform:データクレンジング・型変換・正規化・重複除去などを実施
- 4ELT:先にLoadしてからTransformする現代的アプローチ(BigQuery・Snowflake向け)