基本情報 令和6年度 科目A 問15:テクノロジ系に関する問題
ビッグデータ分析の前段階として,非構造化データを構造化データに加工する処理 を記述している事例はどれか。
- a関係データベースに蓄積された大量の財務データから必要な条件に合致するデー タを抽出し,利用者が扱いやすい表計算ソフトウェアデータに加工する。
- b個人情報を含むビッグデータを更に利活用するために,特定の個人を識別するこ とができないように匿名化加工する。
- c住所データ項目の中にある,“ヶ”と“が”の混在や,丁番地の表記不統一を, 標準化された表記へ統一するために加工する。
- dソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り, 分析可能なデータに加工し,関係データベースに保管する。 - 8 -正答
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは d です。
データには2種類あります。表計算ソフトのように行と列でキッチリ整理されたデータ=構造化データと、SNSの口コミや写真・動画のようにバラバラなまま=非構造化データ。
非構造化を分析するには、まず整理(構造化)してあげる必要があります。口コミ(バラバラ文章)→単語に分解→表に保管、これが非構造化→構造化の典型例。
👉 覚え方:バラバラ文章→表に入る形に変換 = 非構造化→構造化。
ほかの選択肢:a 元から表データ(構造化→構造化)/b 匿名化は別の処理/c 表記ゆれの統一は構造化データ内のクレンジング。
なぜこれが正解か
正解は d。SNS口コミは典型的な非構造化データ(自由テキスト)。これを機械学習(自然言語処理:形態素解析・要約)で単語ごとに分解し、関係DBに保管できる構造化データへ変換している。
各選択肢の解説
- a 関係DB(構造化)→表計算ソフトデータ(構造化)。形式変換にすぎず構造化への加工ではない。
- b 匿名化加工(個人情報保護法対応の仮名化・k-匿名化など)。プライバシー保護目的で構造の話ではない。
- c 住所表記ゆれの統一はデータクレンジング/名寄せ。元々構造化された表内の品質改善。
- d 自由文→形態素解析→関係DB保管。非構造化→構造化の正答パターン。
覚え方・ひっかけ注意
データの種類: 構造化(RDB/CSV)/半構造化(JSON/XML/ログ)/非構造化(テキスト/画像/音声/動画)。「バラバラなものを表に入れる」が今回の主題。クレンジング・匿名化・形式変換と区別する。
理論的背景
データは構造化(行列に固定スキーマ)・半構造化(タグや階層を持つJSON/XML/ログ)・非構造化(テキスト/画像/音声/動画)の3層に分類される。非構造化データの構造化処理は、テキストではトークナイズ→形態素解析(MeCab/Sudachi/Janome)→品詞付与→TF-IDF/BM25/埋め込みベクトル化、画像では特徴量抽出(CNN/Vision Transformer)→ベクトルストア格納が標準パイプライン。生成AI時代はベクトルDB(Pinecone/Weaviate/pgvector)とRAG(Retrieval Augmented Generation)が主流の構造化手段となった。
実務での使われ方
ビッグデータ基盤ではETL(Extract/Transform/Load)に代わりELT(先にデータレイクへロード→必要時に変換)が主流。データレイクハウス(Databricks/Snowflake/BigQuery)では非構造化ファイルをParquet/Delta/Icebergで半構造化し、SQLで分析可能化する。SNS口コミ分析の典型UCはVoC(Voice of Customer)分析・感情分析・トピックモデリング(LDA/BERTopic)で、抽出された極性・トピック・固有表現を関係DBに格納してBIで可視化する。
試験での位置づけ
FE科目Aでは「データ分類」「データ加工の用語」が頻出。応用情報・DB試験ではETL/ELT・データウェアハウス・スタースキーマ・スノーフレークスキーマ・データマート設計、ストラテジ系ではビッグデータの3V(Volume/Velocity/Variety)→5V(+Veracity/Value)が出題される。近年は生成AI連携(RAG・ベクトル検索)、データメッシュ、データガバナンスがブレンドされる傾向。
選択肢の発展補足
bの匿名加工情報(改正個人情報保護法27条)は2022年改正で「仮名加工情報」と区別が明確化。cの名寄せは“住所正規化API”(Geolonia/CSIS)が実務利用される。aの“データ提供形式変換”はセルフサービスBI(Tableau/Power BI)で頻出のシナリオで、本問の構造化加工とは別概念。
出典:IPA(情報処理推進機構)公式 基本情報技術者試験 令和6年度 科目A 問15/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。