OCR(オーシーアール)とは
OCRとは、画像の中の文字を、コンピュータが扱える文字データに変換する技術のことです。正式名称はOptical Character Recognition(光学文字認識)。紙の書類やスキャン画像、写真に写った文字を「読み取って」テキストにし、検索や編集ができるようにします。
いまのOCRは深層学習で読む
かつてのOCRは文字の形を単純に照合していましたが、現代のOCRは機械学習やニューラルネットワーク(深層学習)で文字を認識します。処理はおおむね、画像の傾きを直す前処理、文字の形を学習済みモデルと照らし合わせる認識、辞書や文法で誤りを補う後処理の流れ。「文字を読む」と聞くと特別な技術に思えますが、中身は最新のAIと同じ深層学習の上に乗っています。オープンソースのエンジンTesseractはLSTMを使い、新しい方式ではTransformerベースのものも登場しました。
どこで使われているか
OCRは身近な業務のあちこちで動いています。紙書類の電子化や検索、請求書・通帳・パスポートの自動入力、車のナンバープレート認識、視覚障害者向けの読み上げ支援などが代表例。経営の現場では、手入力していた伝票やアンケートを自動でデータ化し、人手とミスを減らす使い方が広がっています。なお、きれいに印刷された文字は高い精度で読めますが、くずした手書き文字などは今も苦手分野として残っています。導入時は「どんな文字を読ませるか」で精度が変わる点に注意しましょう。
Topic文字を読むAIは「読書を助ける道具」から始まった
OCRには長い歴史があります。1974年に発明家のRay Kurzweilがフォントを選ばないOCRを実用化し、1976年には目の不自由な人のために「印刷物を読み上げる機械」を世に出しました。文字を読むAIは、まず“読書を助ける道具”として社会に登場していたわけです。生成AIがもてはやされるはるか前から、AIは人の暮らしを地道に支えてきました。
OCRに関するよくある質問
- OCRはいつからある技術ですか?
- 長い歴史があります。1974年に発明家のRay Kurzweilがフォントを選ばないOCRを実用化し、1976年には目の不自由な人のために「印刷物を読み上げる機械」を世に出しました。文字を読むAIは、まず“読書を助ける道具”として、生成AIがもてはやされるはるか前から社会を支えてきました。
- いまのOCRは昔と何が違いますか?
- かつてのOCRは文字の形を単純に照合していましたが、現代のOCRは機械学習やニューラルネットワーク(深層学習)で文字を認識します。「文字を読む」中身は、最新のAIと同じ深層学習の上に乗っています。
- OCRはどこで使われていますか?
- 紙書類の電子化、請求書・通帳・パスポートの自動入力、車のナンバープレート認識、読み上げ支援などです。きれいに印刷された文字は高精度で読めますが、くずした手書き文字は今も苦手分野として残っています。