令和7年度問8ストラテジ系

ITパスポート令和7年度問8：system_strategyに関する問題

AIの機械学習で利用するデータの取扱いに関する記述のうち，バイアスの低減やデータの品質を確保するために考えられる対策として，適切なものだけを全て挙げたものはどれか。a: 学習の目的に適したデータであることを確認する。b: データの入手元・作成来歴を確認する。c: データへのアノテーションの付与は学習目的に合わせて実施する。d: 人間の目でも同定が困難と考えられる画像認識用のデータは除外する。

aa, b
ba, b, c, d正答
ca, d
db, c, d

正答：Ba, b, c, d

AI解説（初心者・標準・上級）

理解度に合わせて3レベルの解説を無料で読めます。

初心者向けまずはここから。やさしく要点を解説

答えは b「a, b, c, d 全部」 です。

AIは“たくさんのお手本データ”を見て学びます。だからお手本の質が悪いと、AIも“かたよった答え（バイアス）”を出してしまいます。料理でいえば、材料が悪ければ味も悪くなるのと同じ。

だから——a 目的に合った材料か確認／b その材料はどこ産か来歴を確認／c ラベル付け（アノテーション＝AIへの正解の付箋）は目的に合わせる／d 人間でも見分けがつかない写真は使わない——どれも“良い材料を選ぶ工夫”で、全部正しいんです。

👉 覚え方：データは“AIのごはん”。質が悪いと答えもかたよる。

標準試験対策の基準レベル

なぜこれが正解か

正解は b（a, b, c, d 全て）。AIの学習データの品質とバイアス低減には、データの選定・出所・ラベル付け・除外判断のすべてが関わるため、4つとも適切な対策となる。

各選択肢の解説

a：学習の目的に適合したデータかを確認 → 目的と無関係なデータは精度低下や偏りの原因になるため正しい。
b：データの入手元・作成来歴（出所）を確認 → 偏ったデータ源や権利不明データを排除でき、品質確保に有効。
c：アノテーション（ラベル付け）を学習目的に合わせる → ラベルの基準がぶれると学習結果も偏るため正しい。
d：人間でも判別困難な画像は除外 → 正解ラベルの信頼性が低いデータはノイズとなり品質を下げるため、除外は妥当。

覚え方・ひっかけ注意

この種の「a〜dから適切なものだけ全て選べ」は、もっともらしい正論は基本すべて正解になりやすい。dの“除外”を「データは多いほど良い」と思い込んで外すのが典型的なひっかけ。質＞量が原則。

上級誤答論破・背景理論まで深掘り

機械学習バイアスの分類と理論

機械学習のバイアスは、データパイプラインの各段階で異なる形で発生する。主要な分類は次の三つである。（1）サンプリングバイアス：収集段階でデータが特定のグループや状況に偏る。（2）ラベリングバイアス：アノテーション作業者の主観・文化的背景・指示の曖昧さが正解ラベルに反映される。（3）歴史的バイアス：過去の社会的不平等や偏見がデータに埋め込まれており、学習モデルがその偏りを再現・増幅する。設問の四選択肢はそれぞれ異なるバイアス源への対策に対応しており、すべて正しい対策である。

データガバナンスとデータプロビナンス

選択肢bが指すデータの「入手元・作成来歴」の確認は、データプロビナンス（Data Provenance）またはデータリネージ（Data Lineage）と呼ばれる概念に対応する。これは「このデータはどこから来て、どのような変換を経たか」を追跡可能にする管理手法で、生成AI・大規模言語モデルの学習データ品質管理においても核心的な課題となっている。著作権が明確でないデータや人権侵害のリスクがあるデータを排除するために不可欠であり、近年のAI規制（EU AI法など）でも記録保持義務として規定が設けられる方向にある。

アノテーション設計の重要性

選択肢cが示すアノテーション（ラベル付け）の品質管理は、学習精度を左右する最重要ファクターの一つである。アノテーション基準が曖昧だとラベラー間で判断がばらつき（インターアノテーターアグリーメントの低下）、ノイズとなって学習精度を下げる。クラウドソーシングによる大量アノテーションでは特に品質変動が大きく、ゴールドスタンダード問題を設けてラベラーの品質を継続的に評価する仕組みが実務の標準となっている。

試験での位置づけと近年のトレンド

ITパスポートのAI・データサイエンス分野は2022年以降のシラバス改定で出題比重が大きく増加した。「データの品質」「バイアスへの対処」「AIの説明可能性」「AI倫理」は今後もメイン出題テーマであり続ける。総務省・経産省が2024年に策定した「AI事業者ガイドライン」では、学習データの適切な品質管理が事業者の基本的責務として明記されている。本問のような「全て正しい」という選択肢形式は、受験者が「一つだけ違うものを探す」という思い込みを持ちやすく意図的なひっかけとして設定されている。

選択肢の発展補足

選択肢dの「人間でも同定困難な画像の除外」は、ラベルノイズ（誤った正解ラベル）を削減するデータクレンジングの一手法である。このような曖昧サンプルは学習時のノイズとなるだけでなく、モデルの汎化性能を損なう過学習の原因にもなる。基本情報技術者では適合率（Precision）・再現率（Recall）・F値・ROC曲線など評価指標まで踏み込んで問われるため、データ品質の確保と評価指標の体系を一連の知識として整理しておくと上位資格への橋渡しになる。

出典・引用について

出典：IPA（情報処理推進機構）公式 ITパスポート試験令和7年度問8／公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。