令和6年度 科目A15テクノロジ系

基本情報 令和6年度 科目A 問15:テクノロジ系に関する問題

ビッグデータ分析の前段階として,非構造化データを構造化データに加工する処理 を記述している事例はどれか。

  • a関係データベースに蓄積された大量の財務データから必要な条件に合致するデー タを抽出し,利用者が扱いやすい表計算ソフトウェアデータに加工する。
  • b個人情報を含むビッグデータを更に利活用するために,特定の個人を識別するこ とができないように匿名化加工する。
  • c住所データ項目の中にある,“ヶ”と“が”の混在や,丁番地の表記不統一を, 標準化された表記へ統一するために加工する。
  • dソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り, 分析可能なデータに加工し,関係データベースに保管する。 - 8 -正答
正答:Dソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り, 分析可能なデータに加工し,関係データベースに保管する。 - 8 -

AI解説(初心者・標準・上級)

理解度に合わせて3レベルの解説を無料で読めます。

初心者向けまずはここから。やさしく要点を解説

答えは d です。

データには2種類あります。表計算ソフトのように行と列でキッチリ整理されたデータ=構造化データと、SNSの口コミや写真・動画のようにバラバラなまま=非構造化データ

非構造化を分析するには、まず整理(構造化)してあげる必要があります。口コミ(バラバラ文章)→単語に分解→表に保管、これが非構造化→構造化の典型例。

👉 覚え方:バラバラ文章→表に入る形に変換 = 非構造化→構造化。

ほかの選択肢:a 元から表データ(構造化→構造化)/b 匿名化は別の処理/c 表記ゆれの統一は構造化データ内のクレンジング。

標準試験対策の基準レベル

なぜこれが正解か

正解は d。SNS口コミは典型的な非構造化データ(自由テキスト)。これを機械学習(自然言語処理:形態素解析・要約)で単語ごとに分解し、関係DBに保管できる構造化データへ変換している。

各選択肢の解説

  • a 関係DB(構造化)→表計算ソフトデータ(構造化)。形式変換にすぎず構造化への加工ではない。
  • b 匿名化加工(個人情報保護法対応の仮名化・k-匿名化など)。プライバシー保護目的で構造の話ではない。
  • c 住所表記ゆれの統一はデータクレンジング/名寄せ。元々構造化された表内の品質改善。
  • d 自由文→形態素解析→関係DB保管。非構造化→構造化の正答パターン。

覚え方・ひっかけ注意

データの種類: 構造化(RDB/CSV)/半構造化(JSON/XML/ログ)/非構造化(テキスト/画像/音声/動画)。「バラバラなものを表に入れる」が今回の主題。クレンジング・匿名化・形式変換と区別する。

上級誤答論破・背景理論まで深掘り

理論的背景

データは構造化(行列に固定スキーマ)・半構造化(タグや階層を持つJSON/XML/ログ)・非構造化(テキスト/画像/音声/動画)の3層に分類される。非構造化データの構造化処理は、テキストではトークナイズ→形態素解析(MeCab/Sudachi/Janome)→品詞付与→TF-IDF/BM25/埋め込みベクトル化、画像では特徴量抽出(CNN/Vision Transformer)→ベクトルストア格納が標準パイプライン。生成AI時代はベクトルDB(Pinecone/Weaviate/pgvector)とRAG(Retrieval Augmented Generation)が主流の構造化手段となった。

実務での使われ方

ビッグデータ基盤ではETL(Extract/Transform/Load)に代わりELT(先にデータレイクへロード→必要時に変換)が主流。データレイクハウス(Databricks/Snowflake/BigQuery)では非構造化ファイルをParquet/Delta/Icebergで半構造化し、SQLで分析可能化する。SNS口コミ分析の典型UCはVoC(Voice of Customer)分析・感情分析・トピックモデリング(LDA/BERTopic)で、抽出された極性・トピック・固有表現を関係DBに格納してBIで可視化する。

試験での位置づけ

FE科目Aでは「データ分類」「データ加工の用語」が頻出。応用情報・DB試験ではETL/ELT・データウェアハウス・スタースキーマ・スノーフレークスキーマ・データマート設計、ストラテジ系ではビッグデータの3V(Volume/Velocity/Variety)→5V(+Veracity/Value)が出題される。近年は生成AI連携(RAG・ベクトル検索)、データメッシュ、データガバナンスがブレンドされる傾向。

選択肢の発展補足

bの匿名加工情報(改正個人情報保護法27条)は2022年改正で「仮名加工情報」と区別が明確化。cの名寄せは“住所正規化API”(Geolonia/CSIS)が実務利用される。aの“データ提供形式変換”はセルフサービスBI(Tableau/Power BI)で頻出のシナリオで、本問の構造化加工とは別概念。

出典・引用について

出典:IPA(情報処理推進機構)公式 基本情報技術者試験 令和6年度 科目A15/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。

テクノロジ系の他の過去問

1
テクノロジ系
2
テクノロジ系
3
テクノロジ系
4
テクノロジ系
5
テクノロジ系

あなたの弱点を診断して、合格までの最短ルートを

この分野を連続演習し、AIがあなたの弱点を分析。合格ナビなら基本情報の過去問を解きながら学べます。