ITパスポート 令和4年度 問59:基礎理論・統計に関する問題
次のデータの平均値と中央値の組合せはどれか。 [データ] 10、20、20、20、40、50、100、440、2000
- a平均値:20 中央値:40
- b平均値:40 中央値:20
- c平均値:300 中央値:20
- d平均値:300 中央値:40正答
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは d「平均値:300 中央値:40」 です。
・平均値=全部を足して個数で割った数。9個を全部足すと2700、9で割って300。
・中央値=小さい順に並べたとき“真ん中”にくる数。9個の真ん中は5番目で、並びは 10,20,20,20,40,50,100,440,2000 なので40。
だから平均300・中央値40。
👉 ポイント:2000みたいな“飛び抜けて大きい数”があると、平均だけが引っぱられて大きくなります。でも中央値(真ん中)はあまり動きません。
だから『極端な値があるときは中央値のほうが実感に近い』と覚えておくと役立ちます。
なぜこれが正解か
正解は d。データは 10、20、20、20、40、50、100、440、2000 の9個。
- 平均値:合計=10+20+20+20+40+50+100+440+2000=2700。2700÷9=300。
- 中央値:小さい順に並んだ状態で、データ数9個(奇数)の中央は5番目。1〜9番目は 10,20,20,20,40,50,100,440,2000 なので5番目は40。
よって平均300・中央値40で d。
各選択肢の解説
- a・b:平均20や40は合計の計算ミス。実際の合計は2700。
- c:中央値20は『最頻値(最も多い値)』と取り違えている。20は3回出るが、中央(5番目)の値は40。
覚え方・ひっかけ注意
『中央値=並べて真ん中/最頻値=一番多い値』を混同しないこと。本問では20が最頻値だが中央値は40。また、2000のような外れ値があると平均が大きく引っ張られ、中央値とのズレが大きくなる=この“ズレ”の理解が問われやすい。
理論的背景
本問は統計の基礎概念「平均値(Mean)」と「中央値(Median)」の計算問題であり、正解dは「平均値:300、中央値:40」である。データは「10, 20, 20, 20, 40, 50, 100, 440, 2000」の9個。
計算の詳細は以下の通りである。平均値(算術平均)=(10+20+20+20+40+50+100+440+2000)÷9=2700÷9=300。中央値はデータを昇順に並べたとき中央に位置する値であり、9個なので5番目の値が中央値となる。並べると「10, 20, 20, 20, 40, 50, 100, 440, 2000」で5番目は「40」。したがって平均値=300、中央値=40が正解dとなる。
本問が「代表値の特性理解」として重要な理由は、平均値が2000という外れ値(Outlier)に引き上げられて300となり、データの大半(7/9個)が平均値を下回るという非対称な分布を示している点である。このような右裾が長い分布(右偏りの分布:Positive Skew)では「平均値 > 中央値 > 最頻値」という関係が成立する。本問では最頻値は20(3回出現)、中央値は40、平均値は300と三者が一致しない典型的な偏った分布である。
実務での使われ方
統計的代表値の使い分けは、データ分析・意思決定・報告書作成において日常的に重要な判断を求める。企業の給与データ・不動産価格・株式リターン・サービス応答時間など多くの実世界データは正規分布ではなく右偏り分布(少数の高額外れ値が存在)を持つため、平均値を代表値として使うと誤解を招く。
具体例として国民所得の代表値問題がある。所得の平均値(算術平均)は富裕層の高所得が引き上げるため、「平均年収600万円」という表現は多くの人が感じる実態より高く見える。これに対して中央値(所得の真ん中)は「中位の人が感じる実態」に近く、経済的不平等の実態把握にはジニ係数や中央値の活用が推奨される。OECDや総務省統計局の家計調査でも平均値と中央値が並記されることが多いのはこのためである。
データエンジニアリング・SRE(Site Reliability Engineering)の文脈では、レスポンスタイムの代表値として平均値より「パーセンタイル」が重視される。P50(中央値)・P95・P99のパーセンタイルを監視することで、遅い少数のユーザー体験を可視化できる。Googleの「Four Golden Signals」でも応答時間の指標として単純平均より尾部(テール)のレイテンシ分布が重要視されている。
試験での位置づけ
ITパスポートの基礎理論・統計分野で、平均値・中央値・最頻値の計算と特性理解は頻出テーマである。本問の重要な技術的ポイントは「外れ値(2000)が平均値に与える影響の大きさ」であり、外れ値がある場合に中央値の方が代表性が高いという統計の基本原則を理解していることが求められる。計算では「並べ替え→中央の値(9個なら5番目)」という手順を確実に実行することが得点の鍵となる。
基本情報技術者(FE)では標準偏差・分散・正規分布・ヒストグラム・散布図・相関係数の計算と解釈まで問われる。応用情報・データサイエンス試験(DS)では中心極限定理・仮説検定・信頼区間の計算・回帰分析・多変量解析・機械学習と統計学の接点(過学習と偏差・分散のトレードオフ)まで試験範囲が広がる。ITパスポートで統計の基礎を確実にしておくことが、データサイエンス資格への最も効率的な足がかりとなる。
選択肢の発展補足
選択肢aの「平均値20」は2000という大きな数を無視した計算で導かれる誤答である。データ中の大きな値(2000)を忘れてしまうとこの誤りに陥りやすい。選択肢bの「平均値40・中央値20」は平均値と中央値を逆にした典型的な誤答であり、「中央値が40・平均値は外れ値で大きくなる」という正しい直感を逆に適用してしまう誤りである。選択肢cの「平均値300・中央値20」は平均値は正しいが中央値の計算を誤っており、9個の中央(5番目)ではなく4番目(または最頻値の20)を誤って選択した場合に導かれる。
データの分布の形状を表す指標として「歪度(Skewness)」と「尖度(Kurtosis)」がある。正規分布では歪度0・尖度3が標準値であり、本問のデータのような右裾が長い分布では歪度が正の値を取る。外れ値の検出手法(Tukey法:IQR×1.5ルール、Z スコア法:平均±3SD)も実務でのデータクリーニングで頻繁に使われる技術であり、基本情報以上のデータ分析問題への準備として有用である。
出典:IPA(情報処理推進機構)公式 ITパスポート試験 令和4年度 問59/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。