令和3年度問19テクノロジ系

ITパスポート令和3年度問19：基礎理論に関する問題

ビッグデータの分析に関する記述として，最も適切なものはどれか。

a大量のデータから未知の状況を予測するためには，統計学的な分析手法に加え，機械学習を用いた分析も有効である。正答
bテキストデータ以外の，動画や画像，音声データは，分析の対象として扱うことができない。
c電子掲示板のコメントやSNSのメッセージ，Webサイトの検索履歴など，人間の発信する情報だけが，人間の行動を分析することに用いられる。
dブログの書き込みのような，分析されることを前提としていないデータについては，分析の目的にかかわらず，対象から除外する。

正答：A大量のデータから未知の状況を予測するためには，統計学的な分析手法に加え，機械学習を用いた分析も有効である。

AI解説（初心者・標準・上級）

理解度に合わせて3レベルの解説を無料で読めます。

初心者向けまずはここから。やさしく要点を解説

答えは a です。

ビッグデータは「とにかく大量のデータ」のこと。これを分析して「次はこうなりそう」と予測するには、昔ながらの統計に加えて、AIに学ばせる"機械学習"を使うとうまくいきます。

たとえば、たくさんの買い物データから「この人は次にこれを買いそう」と当てる、みたいなことです。

👉 覚え方：ビッグデータ＋AI（機械学習）＝予測に強い、と覚える。

ほかの選択肢：b は「動画や画像・音声は分析できない」と言っていますが、実際は分析できます／c は「人が発信した情報だけ」と言っていますが、機械が出すデータも使えます／d は「分析向けじゃないデータは捨てる」と言っていますが、捨てません。だから b・c・d は間違いです。

標準試験対策の基準レベル

なぜこれが正解か

正解は a。ビッグデータから未知の状況を予測するには、従来の統計学的手法に加え、大量データからパターンを学習する機械学習を併用するのが有効。両者は排他ではなく組み合わせて使われる。

各選択肢の解説

b：動画・画像・音声も分析対象になり得る（画像認識・音声認識など）。「扱えない」は誤り。
c：人間が発信する情報だけでなく、センサーやログなど機械が生成するデータも分析対象。「だけ」が誤り。
d：分析を前提としていないデータ（ブログ等）も、目的に応じて価値ある分析対象になる。「除外する」は誤り。

覚え方・ひっかけ注意

ビッグデータの特徴は3V＝Volume（量）・Variety（多様性）・Velocity（速度）。「テキストだけ」「人発信だけ」「対象から除外」のように限定する言い回しは誤りになりやすい、と覚えると識別しやすい。

上級誤答論破・背景理論まで深掘り

理論的背景：ビッグデータの定義と特性

ビッグデータは一般に3V（Volume・Variety・Velocity）で定義される（Gartnerのダグ・レイニーが2001年に提唱）。Volume（大量性）：TB〜PBスケールのデータ規模、Variety（多様性）：構造化データ（RDBMS）・半構造化データ（JSON/XML）・非構造化データ（テキスト・画像・動画・音声・センサーログ）の多種類性、Velocity（高速性）：リアルタイム・ストリームでの生成・処理速度。後にVeracity（信頼性・データ品質）・Value（価値創出）を加えた5Vでも語られる。選択肢bの「動画・音声は扱えない」という誤りはVariety（多様性）に直接反する。選択肢cの「人の発信のみ」という誤りはIoTセンサー・システムログ等の機械生成データを除外するもので、Varietyに反する。選択肢dの「分析向けでないデータを除外」はVarietyの本質（非構造化・分析前提のないデータも価値源泉になる）を否定する。

技術的基盤と処理アーキテクチャ

ビッグデータの収集・蓄積・処理には、分散ファイルシステム（HDFS）とMapReduceを基盤とするHadoopエコシステム、それを超高速化したインメモリ処理のApache Spark、リアルタイムストリーム処理のApache Kafkaが代表的。データを生のまま蓄積するデータレイク（構造を問わず蓄積→後から意味付け）と、分析用に整形したデータを保持するデータウェアハウス（DWH）を組み合わせるレイクハウスアーキテクチャが近年の主流。

実務での使われ方

需要予測（小売POSデータ＋気象データ＋SNS sentiment）、設備の予知保全（IoTセンサーの時系列異常検知）、与信スコアリング（購買履歴＋行動データ）、医療診断支援（電子カルテ＋画像データ）など。「分析を前提としないブログ・SNS投稿（選択肢dのデータ）」も感情分析・テキストマイニング・風評モニタリングの素材として価値を持つ。

上位資格への接続

基本情報技術者ではデータサイエンティストの役割（データエンジニアリング・分析・ビジネス理解の3スキル）、教師あり・教師なし・強化学習の分類、クラスタリング・回帰分析・異常検知の手法識別が問われる。応用情報以上ではデータアーキテクチャ設計・データカタログ・データガバナンス（品質・セキュリティ・プライバシー）まで踏み込む。

選択肢の発展補足

選択肢cの「機械が生成するデータ」はIoT（産業機械・車載センサー・スマートメーター等）由来が急増しており、2025年には全データ量の80%以上が非構造化データになると予測される（IDC調べ）。この文脈でエッジコンピューティング（データをクラウド送信前に現場近くで処理）の重要性が増しており、ビッグデータとエッジAIの組み合わせが実務上の最前線となっている。

出典・引用について

出典：IPA（情報処理推進機構）公式 ITパスポート試験令和3年度問19／公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。