ITパスポート 令和6年度 問78:aiに関する問題
利用者がスマートスピーカーに向けて話し掛けた内容に対して、スマートスピーカーから音声で応答するための処理手順が(1)〜(4)のとおりであるとき、音声認識に該当する処理はどれか。 (1) 利用者の音声をテキストデータに変換する。 (2) テキストデータを解析して、その意味を理解する。 (3) 応答する内容を決定して、テキストデータを生成する。 (4) 生成したテキストデータを読み上げる。
- a(1)正答
- b(2)
- c(3)
- d(4)
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは a「(1)」 です。
「音声認識」とは、人がしゃべった“声”を、コンピュータが読める“文字”に書き起こすことです。(1)は「声を文字データに変換する」なので、まさに音声認識ですね。声を聞いて文字にする、と覚えればOKです。
👉 覚え方:「音声を認識=声を文字にする」最初のステップ。
ほかの選択肢:b (2)=文字の意味を理解する(言葉の意味を読み取る)/c (3)=なんて返すか考えて返事の文を作る/d (4)=できた文章を声に出して読み上げる(これは逆に文字を声にする=音声合成)。
なぜこれが正解か
正解は a (1)。音声認識(Speech Recognition)とは、人間の発話音声を解析してテキストデータに変換する処理を指す。(1)「利用者の音声をテキストデータに変換する」がこれに該当する。
各選択肢の解説
- b (2)テキストを解析して意味を理解する:自然言語処理(自然言語理解)に該当。
- c (3)応答内容を決定しテキスト生成:対話制御・応答生成(自然言語生成)に該当。
- d (4)生成テキストを読み上げる:音声合成(Text to Speech)に該当。音声認識とは逆向きの処理。
覚え方・ひっかけ注意
「認識=声から文字へ(入口)」「合成=文字から声へ(出口)」。(4)の読み上げを音声認識と取り違えやすいので、認識は最初の(1)だけと固定する。スマートスピーカーは認識→理解→生成→合成の流れで動く。
理論的背景
音声認識(Automatic Speech Recognition:ASR)は音響信号から言語的内容を推定する技術分野であり、処理パイプラインの最初のステップ(音声→テキスト変換)に位置する。現代の音声認識はDeep Learningベースのエンドツーエンドモデルが主流であり、主要アーキテクチャとしてCTC(Connectionist Temporal Classification)・Attention-based Encoder-Decoder・Transformer(Whisper等)が使われる。音響モデル(Acoustic Model)は音声信号の特徴量(MFCC:メル周波数ケプストラム係数やメルスペクトログラム)をフォネーム(音素)確率に変換し、言語モデル(Language Model)は文脈から最も確からしい単語列を推定する。(2)のテキスト解析・理解はNLU(Natural Language Understanding)、(3)の応答生成はNLG(Natural Language Generation)、(4)の音声合成はTTS(Text-to-Speech)と呼ばれ、4ステップ全体がスマートスピーカーの処理パイプラインを構成する。
実務での使われ方
Amazon Alexa・Google Assistant・Apple Siri・Microsoft Cortanaはこの4ステップパイプラインの代表的実装であり、クラウドASRエンジンとして構築されている。企業での音声認識活用は、コールセンターでのリアルタイム文字起こし(AmiVoice・Google Cloud Speech-to-Text)・会議議事録の自動生成(Microsoft Copilot・Otter.ai)・音声UIによるアクセシビリティ対応(障害者支援)へと拡大している。WhisperモデルはOpenAIが2022年に公開したオープンソースASRモデルであり、多言語・多環境での高精度認識と実行コストの低さから急速に普及した。一方、音声認識のプライバシー問題(常時マイクオン・クラウド転送)はGDPRや個人情報保護法の観点から課題であり、エッジデバイス上での推論(On-device ASR)技術の開発が進んでいる。
試験での位置づけ
AI・スマートスピーカー関連の処理フローはITパスポートのAI領域(テクノロジ系)で出題頻度が増加している。本問は4ステップを順に列挙した上で「どれが音声認識か」を問うシンプルな識別問題だが、4つの技術用語(ASR・NLU・NLG・TTS)の対応を知識として持っていないと解答困難。(1)が音声認識で(4)が音声合成という「入口と出口が対称」の構造を理解すると記憶しやすい。近年の出題傾向では生成AIとの関連(LLMがNLUとNLGを同時に担う役割)も組み合わせた問題が増加している。基本情報技術者(FE)では音声認識のDNNアーキテクチャ・ヴォイス型インターフェースのUX設計・多言語対応・音声認識精度の評価指標(WER:Word Error Rate)まで問われる場合がある。
選択肢の発展補足
選択肢b((2)テキスト解析・意味理解)はNLU(自然言語理解)に対応し、形態素解析・構文解析・意図分類(Intent Classification)・固有表現抽出(NER:Named Entity Recognition)が含まれる技術領域。Transformerベースの大規模言語モデル(LLM)はこの段階の性能を飛躍的に向上させた。選択肢c((3)応答内容決定とテキスト生成)はNLG(自然言語生成)・対話管理(Dialogue Management)に対応し、情報検索・データベース照合・知識グラフ参照を経て応答テキストを生成するプロセス。選択肢d((4)テキスト読み上げ)はTTS(音声合成)に対応し、WaveNet(DeepMind)・VITS・VALL-Eなどのニューラルネットワークベースの高自然度音声合成技術が2020年代に急速に進歩した。音声認識(1)と音声合成(4)はスマートスピーカーパイプラインの「音声入出力」部分として対称的な位置に存在し、この構造把握で混同を防ぎやすくなる。
出典:IPA(情報処理推進機構)公式 ITパスポート試験 令和6年度 問78/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。