令和6年度問78テクノロジ系

ITパスポート令和6年度問78：aiに関する問題

利用者がスマートスピーカーに向けて話し掛けた内容に対して、スマートスピーカーから音声で応答するための処理手順が(1)〜(4)のとおりであるとき、音声認識に該当する処理はどれか。 (1) 利用者の音声をテキストデータに変換する。 (2) テキストデータを解析して、その意味を理解する。 (3) 応答する内容を決定して、テキストデータを生成する。 (4) 生成したテキストデータを読み上げる。

a(1)正答
b(2)
c(3)
d(4)

正答：A(1)

AI解説（初心者・標準・上級）

理解度に合わせて3レベルの解説を無料で読めます。

初心者向けまずはここから。やさしく要点を解説

答えは a「(1)」 です。

「音声認識」とは、人がしゃべった“声”を、コンピュータが読める“文字”に書き起こすことです。(1)は「声を文字データに変換する」なので、まさに音声認識ですね。声を聞いて文字にする、と覚えればOKです。

👉 覚え方：「音声を認識＝声を文字にする」最初のステップ。

ほかの選択肢：b (2)＝文字の意味を理解する（言葉の意味を読み取る）／c (3)＝なんて返すか考えて返事の文を作る／d (4)＝できた文章を声に出して読み上げる（これは逆に文字を声にする＝音声合成）。

標準試験対策の基準レベル

なぜこれが正解か

正解は a (1)。音声認識（Speech Recognition）とは、人間の発話音声を解析してテキストデータに変換する処理を指す。(1)「利用者の音声をテキストデータに変換する」がこれに該当する。

各選択肢の解説

b (2)テキストを解析して意味を理解する：自然言語処理（自然言語理解）に該当。
c (3)応答内容を決定しテキスト生成：対話制御・応答生成（自然言語生成）に該当。
d (4)生成テキストを読み上げる：音声合成（Text to Speech）に該当。音声認識とは逆向きの処理。

覚え方・ひっかけ注意

「認識＝声から文字へ（入口）」「合成＝文字から声へ（出口）」。(4)の読み上げを音声認識と取り違えやすいので、認識は最初の(1)だけと固定する。スマートスピーカーは認識→理解→生成→合成の流れで動く。

上級誤答論破・背景理論まで深掘り

理論的背景

音声認識（Automatic Speech Recognition：ASR）は音響信号から言語的内容を推定する技術分野であり、処理パイプラインの最初のステップ（音声→テキスト変換）に位置する。現代の音声認識はDeep Learningベースのエンドツーエンドモデルが主流であり、主要アーキテクチャとしてCTC（Connectionist Temporal Classification）・Attention-based Encoder-Decoder・Transformer（Whisper等）が使われる。音響モデル（Acoustic Model）は音声信号の特徴量（MFCC：メル周波数ケプストラム係数やメルスペクトログラム）をフォネーム（音素）確率に変換し、言語モデル（Language Model）は文脈から最も確からしい単語列を推定する。(2)のテキスト解析・理解はNLU（Natural Language Understanding）、(3)の応答生成はNLG（Natural Language Generation）、(4)の音声合成はTTS（Text-to-Speech）と呼ばれ、4ステップ全体がスマートスピーカーの処理パイプラインを構成する。

実務での使われ方

Amazon Alexa・Google Assistant・Apple Siri・Microsoft Cortanaはこの4ステップパイプラインの代表的実装であり、クラウドASRエンジンとして構築されている。企業での音声認識活用は、コールセンターでのリアルタイム文字起こし（AmiVoice・Google Cloud Speech-to-Text）・会議議事録の自動生成（Microsoft Copilot・Otter.ai）・音声UIによるアクセシビリティ対応（障害者支援）へと拡大している。WhisperモデルはOpenAIが2022年に公開したオープンソースASRモデルであり、多言語・多環境での高精度認識と実行コストの低さから急速に普及した。一方、音声認識のプライバシー問題（常時マイクオン・クラウド転送）はGDPRや個人情報保護法の観点から課題であり、エッジデバイス上での推論（On-device ASR）技術の開発が進んでいる。

試験での位置づけ

AI・スマートスピーカー関連の処理フローはITパスポートのAI領域（テクノロジ系）で出題頻度が増加している。本問は4ステップを順に列挙した上で「どれが音声認識か」を問うシンプルな識別問題だが、4つの技術用語（ASR・NLU・NLG・TTS）の対応を知識として持っていないと解答困難。(1)が音声認識で(4)が音声合成という「入口と出口が対称」の構造を理解すると記憶しやすい。近年の出題傾向では生成AIとの関連（LLMがNLUとNLGを同時に担う役割）も組み合わせた問題が増加している。基本情報技術者（FE）では音声認識のDNNアーキテクチャ・ヴォイス型インターフェースのUX設計・多言語対応・音声認識精度の評価指標（WER：Word Error Rate）まで問われる場合がある。

選択肢の発展補足

選択肢b（(2)テキスト解析・意味理解）はNLU（自然言語理解）に対応し、形態素解析・構文解析・意図分類（Intent Classification）・固有表現抽出（NER：Named Entity Recognition）が含まれる技術領域。Transformerベースの大規模言語モデル（LLM）はこの段階の性能を飛躍的に向上させた。選択肢c（(3)応答内容決定とテキスト生成）はNLG（自然言語生成）・対話管理（Dialogue Management）に対応し、情報検索・データベース照合・知識グラフ参照を経て応答テキストを生成するプロセス。選択肢d（(4)テキスト読み上げ）はTTS（音声合成）に対応し、WaveNet（DeepMind）・VITS・VALL-Eなどのニューラルネットワークベースの高自然度音声合成技術が2020年代に急速に進歩した。音声認識（1）と音声合成（4）はスマートスピーカーパイプラインの「音声入出力」部分として対称的な位置に存在し、この構造把握で混同を防ぎやすくなる。

出典・引用について

出典：IPA（情報処理推進機構）公式 ITパスポート試験令和6年度問78／公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。