|
テーマ:パソコンを楽しむ♪(3520)
カテゴリ:Python
# リスト4ー2 # PyOCRを用いて、Tesseract OCRによるOCRを実施するテストプログラム # (Img2.jpg用) # # 「日経ソフトウエア」2020.07 # 『特集5 Pythonで自動化』p.073~p.077 # # ■OCRのライブラリをインストール。p.073 # PythonでOCRを行うには、2つのライブラリ「Tesseract OCR」と「PyOCR」が必要。 # 「Tesseract OCR」は、そのままでは、Pythonでは使えないので、ラッパーである # 「PyOCR」も併用する。 # # ・「Tesseract OCR」のインストール # 次のURLからインストーラーをダウンロードしてインストールする。 # # https://digi.bib.uni-mannheim.de/tesseract/ # # からアルファ版ではない「tesseract-ocr-w64-setup-v5.0.0.20190623.exe」を # ダウンロードして、インストールする。 # この時インストール先をメモしておくこと。 # (デフォルトでは、C:\Program Files\Tesseract-OCR) # # (注1)日本語が使用できるように、 # インストールする言語のコンポーネント選択画面で、日本語関連の項目[Japanese~」 # 2つずつ計4項目にチェックを入れること。 # # (注2)使えるようにするには、Windows10の環境変数の設定が必要。 # 1 コントロールパネルにある「システムのプロパティ」を開き、[詳細設定]タブの[環境変数]を開く。 # 2 既存のユーザー環境変数「Path」にTesseractOCRのインストール先のパスを追加する。 # # ・Tesseract OCR単体での体験 # Tesseract OCRは、コマンドプロンプトから実行可能なので、PNG画像「Confidential.png」をホームディレクトリに置いて、 # # tesseract.exe Confidential.png result -l jpn+eng # # を実行すると、result.txtに画像からOCRで読み取った文字が格納される。 # # ・PyOCRのインストール # 次のように、Anaconda Prompt上で、pipコマンドでインストールする。 # # pip install pyocr # # (執筆時点では、condaコマンドでは、インストールできないとのこと。) # # ■注 # ・記号「#」以降はコメント。(番号)は、本文の説明用の番号。[番号]は筆者が付加したコメント。 # ・元々のリストにない「print」文は、筆者のデバッグのために挿入したもの。 #
print('Start!!') from PIL import Image import sys import pyocr # 本文のままのコードでは、(1)でOCRエンジンのオブジェクトが取得できなかったため、 # # https://tsukimitech.com/pyocr-get_available_tools/ # # の記事を参考にして、次のコードを追加。 pyocr.tesseract.TESSERACT_CMD = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe' #(1)OCRエンジンのオブジェクトを取得して、リスト変数「tools」に格納する処理 tools = pyocr.get_available_tools() if len(tools) == 0: print("OCRツールが見つかりませんでした") sys.exit(1) print('tools = ', tools) #(2)実際に使うOCRエンジンオブジェクトを取り出して、変数「tool」に格納する処理 tool = tools[0] print('tool = ', tool) #(3)実際に文字認識処理を行っているコード txt = tool.image_to_string( Image.open('Img2.jpg'), lang='jpn+eng', builder=pyocr.builders.TextBuilder() ) print('txt=', txt) お気に入りの記事を「いいね!」で応援しよう
最終更新日
2021.05.31 20:16:30
コメント(0) | コメントを書く
[Python] カテゴリの最新記事
|