FAXやスキャン画像からテキストデータを抜き取ってみる【OCR】

DTP

FAXやスキャン画像でテキストデータを送られて文字起こし、という経験がある方も多いと思います。
「データで送ってくださいよ…」と思いつつ打ち込むのももちろんアリですが、OCR(光学文字認識、Optical character recognition)を試してみるのもいいと思います。

■OCRとは

印刷された文字や手書き文字が書かれたスキャン原稿や写真等を、デジタルの文字コードに変換する技術です。
平たく言うと、パソコンに文字を認識してもらって文字起こししてもらう事です。

■OCRって専用のソフトが必要なの?

良い判定ができる本格的なものは専用のソフトウェアがありますが、無料のWEBサービスも多く存在するので、今回はWEBサービスと、手元にあるAdobeのAcrobat DCで試してみたいと思います。



■試してみる

まず、読み取ってもらう原稿は、スキャン画像より粗く難易度の高いFAX受信原稿を使用してみます。
用意した原稿はテキスト内容は同じ2種類

①FAXで受信した原稿を2階調200ppiでスキャンしたデータ。
②illustratorで200dpiで書き出したjpgデータ


試してみるWEBサイトとアプリケーション

■出力結果

結果は以下の通りです。間違って認識している場所は赤字にしてあります。

①粗いFAXレベルのデータ

ONLINE OCR Convertio Google Drive Acrobat DC
b難難難難り蕪熱/蕪蒼三譲霧撫霧曹で葉議熱夢讐::無::;i;;二:::蓉ぎ夢二 り無響菜熱講識鐘鱒1鰯嬢車要授輸蕪勲h)i:lま、活字の文書の画像を勲蕪 :薫鷺熱参刻1き舞携蕪舞轟撫1鳳ブ薫襲舞参夢な各般にOCRと略記され蚤。範二: 誉M臓筆雄泰:醗報番=二二難蒼=霧喜議誠::『矛轟::鴬ぎ二:!;_ 三鷲薫薫事認滞偵繊滋蔀C櫛満翻購:市◇0勘iton)はへ活字の文書め画像た 三業誉篇竺鯵列康換す喬ソ舞番ウェアで毒夢;級にOCRと略記される「::
ひI,繋ミシM..-誉::二叫げ二H:-縄発「三 難議欝認諏麟舞繋類顧熱撫墓11販亘離頑蘇移き活字愛窯鵬魚商癒菱薬響1 議熱零の列犀変換繊墳ジクドウ善才である二一般にoc鳶と略競され夢1誉舞
勲亘負備:-!り『・::A戸:: 難鼻文字認嚇菊加加I charac煽1厘加叩滑加)は,活皇のヌ盤の画像を文建 費糾鷺切刻懲奪換するソブト夏Xアであ覇一線鷺C酬と略記され亀:::
解析不能 ・・
・・
・・
光学文字認識(Optical character recognition)は、活字の文の画像を文字: コードの列に変換するソフトウェアである。一般にOCRと略記される。
MB101 M.. 光学文字認識(Optical character recognition)は、活字の文書の画像を 文字コードの列に変換するソフトウェアである。一般にOCRと略記される。
UD黎ミン MES 光学文字認識(Optical character recognition)は、活字の文の画像を文字 コードの列に変換するソフトウェアである。一般にOCRと略記される。
POPIM 光学文字認識(Optical character recognition)は、活字の文の画像を文字 コードの列に変換するソフトウェアである。一般にOCRと略記される。
メイリオ光学文字認識(Opticalcharacterrecognition)は、活字の文書の画像を文字コードの列に変換するソフトウェアである般にOCRと略記される。
MB101M光学文字認識(OpticaICharacterrecoition)は活字の文書の画像を 文字コードの列に変換するソフトウェアである。一般にOCRと略記される。
· • · • UD黎 、 YM光学文字認識(0p ticalcharacter recognition)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般にOCRと略記される。
9:PO文字認識(Optiaaicharacにrrecognition)は活字の文書の圃鑑を文字さコードの列に変するソトウェアである。一殿0CRと略記れる。

原稿がかなり粗すぎて難しかったようですが、Google DriveとAcrobat DCは奮闘しています。


②200dpiで書き出したjpgデータ

ONLINE OCR Convertio Google Drive Acrobat DC
メイリオ 光学文字認識(Optal character recognition)は、活字の文書の画像を文字 コードのタIiに変換するソフトウアである。一般にOCRと略記される。 MB1O1 M 光学文字認識(Optical character recognition)は、活字の文書の画像を 文字コードの列に変換するソフトウェアである。一般にOCRと略記される。 UDミンM 光学文字認識(Optical character recognition)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般にCRと略記される。 POP体 光学文字認識(Optical character recognition)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般にOCRと略記される。 メイリオ 光学文字認識(の的丨口丨〇113「3〔1;6「「㊀⑺叩比丨00)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般に〇匸6と略記される。 IV!巳101 IV! 光学文字認識(の口七じ㊀丨0卜3「3〇1:6「「6008门丨七011)は、活字の文書の画像を 文字コードの列に変換するソフトウェアである。一般に〇〇円と略記される。 1)0黎ミン]VI 光学文字認識((^此“’:’6(30^11出011〉は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般に〇0尺と略記される。 体 光学文字認識(0が丨〇3丨0わ1*600併!は丨00)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一00只と略記される。 メイリオ 光学文字認識(Optical character recognition)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般にOCRと略記される。 MB101 M 光学文字認識(Optical character recognition)は、活字の文書の画像を 文字コードの列に変換するソフトウェアである。一般にOCRと略記される。 UD黎ミン M 光学文字認識(Optical character recognition)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般にOCRと略記される。 POPIA 光学文字認識(Optical character recognition)は、活字の文書の画像を文字 コードの列に変換するソフトウェアである。一般にOCRと略記される。 メイリオ 光学文字認識(Optical character recognition)は、活字の文書の画像を文字コー ドの列に変換するソフトウェアである。一般にOCRと略記される。 MB101 M 光学文字認識(Optical character recognition)は、活字の文書の画像を 文字コー ドの列に変換する‘ノフトウェアである。一般にOCRと略記される。 UD黎ミンM 光学文字認識(Optical character recognition)は、活字の文書の画像を文字コー ドの列に変換するソフトウェアである。一般にOCRと略記される。 POP 光学文字認識(Optical character reco9nition)は、活字の文書の画像をコー ドの列に変換するソトウエアである。一観にOCRと略記される。

やはり原稿が綺麗だとそれぞれ高確率で正しく読み取れていました。半角スペースが所々入ったり抜けたりしていますがそれは無視しています。

POP体を正しく認識できたONLINE OCRはある意味すごいですね。
Convertioは「日本語」と指定したら英語も日本語にしようとしているようで、イマイチ使えそうにありません。
Google Driveは「体」を「IA」にした以外は正確で、Acrobat DCは全体的に「惜しすぎる」感があります。

■各サイト、アプリケーションの使い方

ONLINE OCRとConvertioに関しては、ファイルと言語を選択して変換を押せば簡単に完了しますが、Google DriveとAcrobat DCはひと手間あるのでそちらを解説します。

●Google Drive でのOCR方法
①Google Driveで任意の場所に画像ファイルをアップロードする(ブラウザ内へドラッグでOK)
②アップされたファイル上で右クリック(Macはcontrol+クリック)して「アプリで開く」→「Googleドキュメント」
③ドキュメントとしてOCRされた文字を含めて保存される


●Acrobat DC でのOCR方法
①対象のファイルをAcrobat DCで開く
②右サイドバーの「PDFを編集」をクリックする
③OCRで読み取られた箇所にバウンディングボックスが出て編集が可能になる

または、右サイドバーの「スキャンとOCR」→「テキスト認識」→「このファイル内」→「テキスト認識」からもできますが、既存のファイルであれば手順の短い上記の方法がおすすめです。

■まとめ

Googleは日々膨大なデータを処理しているので、学習が進んでいるのかかなり使える結果を得ることが出来ました。さすがGoogleです。
Acrobat DCに関してはOCRで文字を抜くというよりも、画像そのものを生かして「ダイレクトに文字を編集」することに長けていると言えます。

一番いいのはデータで支給されることですが、画像原稿が来た場合などにOCRはおすすめです。