ITパスポート 令和6年度 問59:technology_elementに関する問題
OCR の役割として、適切なものはどれか。
- a10cm 程度の近距離にある機器間で無線通信する。
- b印刷文字や手書き文字を認識し、テキストデータに変換する。正答
- cデジタル信号処理によって、人工的に音声を作り出す。
- d利用者の指先などが触れたパネル上の位置を検出する。
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは b です。
OCR(オーシーアール)は、紙に印刷された文字や手書きの文字を、カメラやスキャナで読み取って、パソコンで打ち直せるテキストデータに変える技術です。紙の書類をデータ化したいときに大活躍します。
👉 覚え方:OCR=「文字を“読み取って”→“打ち込み済みのデータ”に変える」。
ほかの選択肢:a 10cmくらいの近距離で無線通信=NFC(おサイフケータイみたいなの)/c 人工的に音声を作る=音声合成/d 触れた場所を検出=タッチパネル。
なぜこれが正解か
正解は b。OCR(Optical Character Recognition=光学文字認識)は、印刷された文字や手書き文字を光学的に読み取り、コンピュータで編集・検索可能なテキストデータに変換する技術。紙文書の電子化・データ入力の自動化に使われる。
各選択肢の解説
- a「10cm程度の近距離で無線通信」=NFC(近距離無線通信。交通系IC・スマホ決済等)。
- c「デジタル信号処理で人工的に音声を作る」=音声合成(TTS)。
- d「指先などが触れたパネル上の位置を検出」=タッチパネル。
覚え方・ひっかけ注意
OCRの「C」はCharacter(文字)。“文字を読み取ってテキスト化”=OCRと覚える。音声の読み上げ=音声合成、音声を文字にする=音声認識(OCRではない)、画像から文字=OCR、と入出力の対応で区別する。手書きや帳票の読み取りという文脈が出たらOCRを選ぶ。
理論的背景
OCR(Optical Character Recognition:光学文字認識)は「光学的手段で取り込んだ印刷文字・手書き文字の画像を、機械可読なテキストデータに変換する技術」であり、正解はb。ITパスポートシラバスで「テキストデータへの変換技術」として明確に定義されている。
OCR技術の発展史は3世代に分けられる。第1世代(1970〜90年代):テンプレートマッチング方式。あらかじめ登録した文字形状との類似度比較。固定フォント・限られた文字セットのみ対応。第2世代(2000〜2010年代):ニューラルネットワーク・SVM(サポートベクターマシン)を使った統計的パターン認識。多様なフォント・一定の手書き文字に対応。第3世代(2015年〜現在):ディープラーニング(CNN:畳み込みニューラルネットワーク+RNN/Transformerの組み合わせ)による「AI-OCR」。様式が異なる非構造化文書・崩れた手書き文字・低画質スキャンにも対応。
OCRの処理パイプラインは「画像入力→前処理(ノイズ除去・歪み補正・コントラスト調整)→文字領域検出(レイアウト解析)→文字認識→後処理(辞書照合・文脈整合性確認)→テキスト出力」という段階で構成される。精度向上の鍵はこの各段階での品質確保にある。
実務での使われ方
OCRの産業応用は「ペーパーレス化・デジタル化」の文脈で飛躍的に拡大している。主要用途:①領収書・請求書の自動読み取り(経費精算・AP自動化)、②本人確認書類(運転免許証・マイナンバーカード・パスポート)のeKYC(電子本人確認)、③帳票・契約書の電子化(電子帳簿保存法対応)、④工場の生産記録・品質検査票のデジタル化、⑤古文書・歴史資料のデジタルアーカイブ化。
AI-OCRを提供する主要サービス:Google Document AI・Amazon Textract・Microsoft Azure Document Intelligence・富士通BLUE BOX・AIinsideが競合している。精度は約99%に達する製品もあるが、印鑑・手書き署名・縦書き・数式・表の罫線の複雑な解釈は依然として技術的課題として残る。
電子帳簿保存法(2022年改正)では「スキャナ保存制度」が要件緩和され、AI-OCRとの組み合わせで請求書・領収書の電子保存義務対応が加速している。ITパスポートでRPAとAI-OCRの組み合わせが出題されるのは、この「ペーパー受領→OCR変換→RPA入力」という現実の業務自動化パターンを反映しているためである。
試験での位置づけ
OCRはITパスポートのテクノロジー要素・AI技術の分野で「語彙の定義識別」問題として出題される。本問の選択肢構成(NFC:近距離無線通信、OCR、音声合成、タッチパネル)は「周辺機器・通信・センサー技術」の識別を問う典型設計。各選択肢の「距離・手段・目的」を整理することで正答できる。
「OCR=目(カメラ)で文字を読んでテキスト化する」という直感的理解が有効。AI-OCRの文脈ではRPAとの組み合わせ(AI-OCRで非定型帳票を読み取り→RPAで基幹システムに入力)という業務自動化パターンがITパスポートの応用問題として頻出化している。
基本情報技術者では「OCRの処理アルゴリズム(パターンマッチング・機械学習)」「漢字OCRの特殊課題(異体字・旧字体)」「OCR精度の評価指標(文字認識率・単語認識率・フィールド認識率)」まで問われる。AI・機械学習系資格(G検定・AI実装検定)ではCNNを使ったOCRの技術的実装(アーキテクチャ設計・学習データの準備・転移学習の活用)が出題される。
選択肢の発展補足
aのNFC(Near Field Communication:近距離無線通信)との区別:「10cm程度の近距離で無線通信する」はNFCの定義そのもの(ISO/IEC 18092)。Suicaや電子マネー(非接触IC決済)・NFC対応スマートフォンでの支払い・NFC名刺(NFCタグを埋め込んだ名刺)がNFCの代表応用。「文字を認識してテキスト化する」機能ではなく「電磁誘導を使った短距離通信技術」であり、OCRとは全く異なる技術領域。
cの音声合成(Text-to-Speech:TTS):テキストデータを人工音声に変換する技術であり、OCRの「画像→テキスト」とは変換の方向・入出力形式が完全に逆。OCR(文字→テキスト)とTTS(テキスト→音声)・STT(音声→テキスト)の混同は「A/D変換の方向の混同」として理解できる。スクリーンリーダー(視覚障害者向けPC補助技術)ではOCR(画像中のテキスト抽出)とTTS(テキストの音声読み上げ)が組み合わせて使われる。
dのタッチパネル(Touch Panel):「ユーザーの指先などが触れたパネル上の位置を検出する」入力デバイス技術。静電容量方式(現在主流:指の微弱な電気を検出)・抵抗膜方式(感圧式:物理的押圧を検出)の2方式が代表的。「文字認識・テキスト化」という情報処理機能ではなく「物理的接触の位置検出」というセンサー機能であり、OCRとは目的・技術領域が根本的に異なる。
出典:IPA(情報処理推進機構)公式 ITパスポート試験 令和6年度 問59/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。