スキャン文書OCR処理の活用と手書きOCRのニーズ

デジタル複合機連携機能

PaperCut MFをデジタル複合機と連携して活用中のユーザーの方、ご存じでしたか? PaperCut MFには「統合スキャン機能」という機能があり、複合機で紙文書をスキャンしたあと、自動的にOCR処理を行い、テキスト検索可能なPDF文書に変換する機能があります。

テキスト検索可能なPDF文書にすると何が便利になるかと言うと、無造作に放り込まれたスキャンフォルダに対して、Windowsのファイルエクスプローラーでキーワード検索をかけることができるようになります。例えば「年末セール」というキーワードで検索すると、PDF文書内にこのキーワードが含まれている場合、サーチ結果にそのPDFファイルが表示され、簡単に目的文書に到達することが出来ます。

紙文書の電子化とその活用方法

企業、公共機関では、まだまだ紙の文書が多く残っており、また、市民サービスの申込書など、手書きの文書で受付を行っている文書が多く残っています。これらの紙文書は人間の目で見れば、文字情報として読み取れるのですが、コンピュータなど機械から見るとただの画像(絵)にしか見えません。紙文書をスキャナを使って電子化しても、ファイル名で分類する以外に何の文書なのか、ファイルを開いてみるまで確認することが出来ません。

このような問題を解決するのがOCR処理機能ですが、単にテキスト検索可能なPDF文書に変換しただけでは結局そのあとの必要情報の抽出の場面になった場合、手作業で人間が処理を行っていかなければならないという事態に陥ります。この作業は大変面倒なので、検索性を考えて、紙文書のまま、バインダに綴じて保管するという、二重管理が発生してしまいます。

この問題を解決するにはスキャンと同時に自動的に文書に書かれた情報を抽出し、適切な後処理システムにデータとして渡して行く必要があります。この作業に適したツールとしてUmangoがあります。

Umangoを使うと、スキャンして読み込んだ文書を順次処理し、後処理に必要な情報を抽出し、CSVファイルにはき出すことが出来ます。このCSVファイルを後処理システムにインポートさせることによりデータ入力を自動化することが出来ます。

 

ソリューション・サービス・製品