働き方

2021年7月12日

OCRとは?文字を認識する仕組みとメリット、精度向上のポイント

ペーパーレス化に欠かせない技術にOCRがあります。なんとなく誤認識が多くて使えない、といったイメージを持っている方も少なくないと思いますが、現在のOCRはAIなどの技術を使い、大きく認識精度が向上しています。今回は、OCRの仕組みやメリット、そして精度を向上させるポイントを解説します。

OCRとは?

OCR(オーシーアール)とは、紙の書類などに印刷された文字をスキャナやデジタルカメラで取り込み、それを解析してテキストデータに変換する技術です。「Optical Character Recognition(またはReader)」の略です。「光学的文字認識」とも呼ばれています。

通常、紙の文書をスキャンすると画像ファイルとして取り込まれるため、書かれている文字をデータとして扱うことはできません。仮にPDFファイルとして読み込まれたとしても、中身は画像です。しかしOCRの機能を使うことで、紙の文書に書かれた「文字」を文字データに変換でき、これを検索用データとして利用することができます。基本的に印刷された文字が対象ですが、手書き文字を認識できるOCRもあります。

また、現在ではOCRにAIを組み合わせてスキャンと認識を繰り返すことにより、認識率のさらなる向上が可能なAI-OCRも普及しています。しかし、認識率が向上したとは言え、100%正しく文字を認識できるわけではありません。このため、正確を期すためには目視によるチェックは欠かせないと言えます。

OCRの仕組み

OCRはどのように画像を解析し、文字データに変換するのでしょうか。OCRの動作を確認してみると、実は人間が認識するのと同じように、少しずつ文字を認識しているのです。

1.ブロックを解析

対象画像のどこに文字が書かれているか解析し、その範囲をブロック、すなわち文字を読み取る領域として設定します。手動で設定することも可能ですが、近年のOCRでは、ほぼ自動でブロックを解析可能です。

 

2.ブロック内の行を解析

ブロックの中にある文字列が何行あるのか、またどの部分が一行なのか解析します。例えば3行の文章であれば、この3つの行をそれぞれ四角く切り抜くイメージです。

 

3.行内の文字を解析

見つけた行から、どの部分が文字なのか解析します。先述の2で切り取った「行」を、さらに1文字ずつ切り取っていくイメージです。

 

4.文字として解析された内容がどの文字であるか認識

文字であると解析された画像が、どの文字であるか特定し、認識します。

 

5.文字の訂正

認識した結果を、AIや辞書などによって前後の文字や行、機能によっては文章全体から判断し、訂正します。文字の訂正機能は進化を続けており、各社さまざまな方法で認識率を上げています。このため、最新かつ高機能のOCRを利用すると、読み込み後に行う目視でのチェック作業が大幅に削減できます。

 

6.テキスト化

文字として認識したデータを処理し、テキスト化します。OCRの機能によっては単純なテキストデータではなく、PDFなどに書き出して元の書類のレイアウトを再現してくれるものもあります。

OCRを活用するメリット

OCRを利用すると、業務にどのようなメリットがあるのでしょうか。ここではOCR活用のメリットを5つ紹介します。

データ入力の作業時間を削減できる

OCRを使わなくても、人間が紙の書類を目で見て、手で入力することは可能です。しかし、こうしたデータ入力は多くの時間が必要となります。そこで手入力に代わり、文字の認識と入力をOCRに任せ、作業時間を削減するのです。さらに自動化ツールRPAを併用すれば、例えばOCRで認識した帳票データを会計ソフトの決まった場所に入力する、といったことまで自動化でき、大きな業務効率の向上につながります。

情報を検索しやすくなる

紙の書類をスキャナで読み込んだだけでは、書類が画像としてデータ化されるだけです。この状態では、書類に書かれている文字を検索することはできません。このとき、OCRで文字をテキストデータ化しておけば、ファイル検索が便利に行えるのです。例えば過去の契約書を電子化する際に、OCRでテキストデータ化しておくと、まるで全文検索のように行える、検索性の高いデータが作成できます。

新規文書の作成時に過去のデータを再利用しやすい

以前作成した書類を元に新たな書類を作成する場合、元の書類データがなく、印刷されたものだけが手元にある場合があります。こうした場面でOCRを使えば、書類の文章がテキストデータ化でき、新規文書の作成を大いに助けてくれます。

ペーパーレス化につながる

紙でもらった書類をスキャナで読み込み、OCRを使ってテキストデータ化すれば、即座にデータ化できるため、社内のペーパーレス化に大きく貢献できます。もちろん過去の書類を電子化し、完全なペーパーレス化を目指す場合にも、OCRは必須と言えます。

顧客データの共有を効率化できる

OCRで紙の顧客データを電子化すれば、情報共有が効率化できます。例えば社員それぞれがもらった名刺をデータ化すれば、社内で共有しやすくなるため営業活動に活かすことが可能です。

OCRの認識精度を向上させるポイント

OCRを使う場合、いくつかのポイントを知っておくと文字の認識精度が上がり、訂正や修正の手間を省けます。ここでは認識精度を向上させるためのスキャン時のポイントや、画像に対するポイントを解説します。

高解像度でスキャンする

紙の書類をスキャンする場合、高い解像度で読み込むと認識精度が向上します。だからといって、高解像度にしすぎると、スキャン速度が低下してしまいます。OCRを使う場合、おすすめの読み取り解像度は300dpiです。

薄い紙のスキャン時は裏紙をあてる

スキャンする書類が両面印刷や本のように綴じられている場合、紙が薄いと透けてしまい、誤認識を起こすことがあります。スキャナは強い光を照射して画像を読み込むため、そのような現象が起きてしまうのです。誤認識を防ぐためには、裏紙をあててスキャンするなどの工夫が必要です。

画像データであればノイズは消しておく

すでに画像データとして保存されている画像をOCRで文字認識する場合には、画像データのノイズを取り除いておくと、認識精度が向上します。ただし、現在のOCRにはノイズ除去機能も搭載されています。どの程度のノイズであれば誤認識しないか確認したうえで、よほど酷いノイズがあればそれだけを消すといった対応で問題ないでしょう。

ペーパーレス化の推進には電子契約サービスもおすすめ

これまで解説したように、OCRを活用するとペーパーレス化の実現を加速できます。そこで導入をおすすめしたいのが、電子契約システム「電子印鑑GMOサイン」です。

電子印鑑GMOサインは、法的効力を持つ電子契約を実現するクラウドサービスで、実印相当の電子印鑑と認印に相当する電子印鑑を使い分けられる特徴があります。しかし、それだけではありません。電子印鑑GMOサインには、紙ベースの書類をスキャンして作成したPDFファイルを管理できる機能も搭載されているのです。

このスキャン文書管理機能により、PDF化した紙文書と電子契約を一元管理できるだけでなく、文書の閲覧制限をかけるなど、社内での文書共有を安心して行うことが可能です。

OCRはペーパーレス化に必須の技術

OCRは紙の文書に印刷された文字を認識し、テキストデータ化する技術です。単純にスキャンした文書は画像となり、文字データを使うことはできません。しかし、OCRを使うことでテキストデータ化が実現でき、検索対象や文字データとして利用することが可能です。ペーパーレス化を進める際に問題となる「中に何が書いてあるか」をOCRが解決してくれるため、ペーパーレス化に必須の技術と言えます。

なお、契約書などを電子化した場合に便利なのが電子契約システム「電子印鑑GMOサイン」です。電子印鑑GMOサインは法的効力を持つ電子契約を実現できるだけでなく、スキャン文書の管理と共有をセキュアに行えるため、ペーパーレス化と業務効率化を同時に実現できるのです。

関連記事

ハンコ脱出作戦 編集部

筆者

ハンコ脱出作戦 編集部

このライターの記事一覧を見る

  • 電子印鑑GMOサインが選ばれる理由
  • 電子契約とは
  • 脱印鑑ブログ 公式Twitter

公式SNS

電子印鑑GMOサインのサービス情報や電子契約に関わる様々な情報を配信!

「ハンコ脱出作戦」とは?

日本の脱印鑑文化を応援するブログメディアです。
電子印鑑GMOサインのサービス情報や電子印鑑、電子契約の最新情報をお伝えしています。

電子契約サービスを検討中の方向けに、
役立つ資料を提供しています。

電子契約サービスの基礎知識や選び方、導入ステップなどを分かりやすく紹介しています。
無料でダウンロードいただけます。ぜひご活用ください。

資料請求

印鑑の完全廃止に関するグループの取り組みと関連リンク集

印鑑の完全廃止に関するグループの取り組みと関連リンク集