テクノロジ系データベース

データクレンジングとは?

読み方: でーたくれんじんぐ
1行定義

データ分析・活用の前処理として、不正確・不完全・重複・矛盾したデータを検出・修正・除去してデータ品質を高める作業

詳細解説

データクレンジング(Data Cleansing:データクリーニングとも呼ぶ)は、データ分析・機械学習・データ統合の前処理として、収集したデータに含まれる不正確・不完全・重複・矛盾した問題データを検出・修正・除去してデータ品質を高める作業です。「Garbage In, Garbage Out(ゴミを入れればゴミしか出てこない)」という原則の通り、データ品質が低いまま分析・AI学習を行っても結果の信頼性が得られません。データクレンジングで対処する問題の種類は次の通りです。欠損値(Missing Values):データが空(NULL)になっている。対処法:平均値・中央値・最頻値での補完・前後値の補間・該当レコード削除・欠損フラグの追加。外れ値・異常値(Outliers):統計的に極端に異なる値(年齢が-5歳・売上が1兆円等)。対処法:IQR法・Zスコア法で検出して除去または補正。重複レコード(Duplicates):同じデータが複数回登録されている。対処法:ハッシュや複合キーで重複検出して統合・削除。表記ゆれ(Inconsistencies):「東京都」「東京」「tokyo」が混在する。対処法:名寄せ・正規化・コードマスターへの統一。形式不統一(Format Issues):日付が「2026/05/01」「2026-05-01」「May 1, 2026」で混在。対処法:統一フォーマットへの変換。文字コードエラー:文字化けや制御文字の混入。代表的なツールはPythonのpandas/numpy・OpenRefine・Talend Data Quality・Informatica・Excel(Power Query)です。データクレンジングはETLのTransform段階の中核的作業でもあります。ITパスポートでは「データクレンジングの定義と目的」「欠損値・外れ値・重複の処理」「AIデータ前処理との関係」が出題されます。

ITパスポートでの出題ポイント

  • 1欠損値・外れ値・重複・表記ゆれなどを修正してデータ品質を向上させる前処理
  • 2Garbage In, Garbage Out:低品質データは分析・AI結果も低品質になる
  • 3欠損値対処:平均値補完・前後補間・削除のいずれか用途に応じて選択
  • 4ETLのTransform段階の中核作業。機械学習データ前処理でも必須

関連用語

ETL
データベース
データレイク
データベース
データウェアハウス(Data Warehouse)
データベース
機械学習
AI・新技術
BI(Business Intelligence)
データベース

データクレンジング」の過去問を解いて理解を定着

合格ナビでは IPA 公式 600問 + AI解説 で「○○とは?」をその場で深掘りできます。

シラバス 6.5 準拠 / 最終更新: 2026-05-26