719898 ランダム
 ホーム | 日記 | プロフィール 【フォローする】 【ログイン】

mlupinのブログ

mlupinのブログ

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

キーワードサーチ

▼キーワード検索

カレンダー

コメント新着

aki@ Re:今朝の朝食は、じゃがいものポタージュスープ(01/20) この様な書込大変失礼致します。日本も当…
aki@ Re:今朝の朝食は、じゃがいものポタージュスープ(01/20) この様な書込大変失礼致します。日本も当…
mlupin@ Re:いちごの苗2023 その後 花が?(12/21) かずパパさん、コメントありがとうござい…
かずパパ@ Re:いちごの苗2023 その後 花が?(12/21) こんにちは、藻緯羅さんのブログから来ま…
mlupin@ Re[1]:今朝の朝食は、食事系のパンケーキ(11/26) 藻緯羅さんへ いつもコメントありがとうご…

カテゴリ

バックナンバー

2021.05.31
XML
カテゴリ:Python
# リスト4ー2
#  PyOCRを用いて、Tesseract OCRによるOCRを実施するテストプログラム
#   (Img2.jpg用)
#
#  「日経ソフトウエア」2020.07
#  『特集5 Pythonで自動化』p.073~p.077
#
#  ■OCRのライブラリをインストール。p.073
#   PythonでOCRを行うには、2つのライブラリ「Tesseract OCR」と「PyOCR」が必要。
#   「Tesseract OCR」は、そのままでは、Pythonでは使えないので、ラッパーである
#   「PyOCR」も併用する。
#
#  ・「Tesseract OCR」のインストール
#   次のURLからインストーラーをダウンロードしてインストールする。
#   
#    https://digi.bib.uni-mannheim.de/tesseract/
#
#    からアルファ版ではない「tesseract-ocr-w64-setup-v5.0.0.20190623.exe」を
#      ダウンロードして、インストールする。
#   この時インストール先をメモしておくこと。
#      (デフォルトでは、C:\Program Files\Tesseract-OCR)
#
#  (注1)日本語が使用できるように、
#    インストールする言語のコンポーネント選択画面で、日本語関連の項目[Japanese~」
#      2つずつ計4項目にチェックを入れること。
#
#  (注2)使えるようにするには、Windows10の環境変数の設定が必要。
#    1 コントロールパネルにある「システムのプロパティ」を開き、[詳細設定]タブの[環境変数]を開く。
#    2 既存のユーザー環境変数「Path」にTesseractOCRのインストール先のパスを追加する。
#
#  ・Tesseract OCR単体での体験
#   Tesseract OCRは、コマンドプロンプトから実行可能なので、PNG画像「Confidential.png」をホームディレクトリに置いて、
#
#    tesseract.exe Confidential.png result -l jpn+eng
#
#   を実行すると、result.txtに画像からOCRで読み取った文字が格納される。
#
#  ・PyOCRのインストール
#   次のように、Anaconda Prompt上で、pipコマンドでインストールする。
#
#       pip install pyocr
#
#   (執筆時点では、condaコマンドでは、インストールできないとのこと。)
#
#       ■注
#     ・記号「#」以降はコメント。(番号)は、本文の説明用の番号。[番号]は筆者が付加したコメント。
#     ・元々のリストにない「print」文は、筆者のデバッグのために挿入したもの。
#
print('Start!!')
from PIL import Image
import sys
import pyocr
# 本文のままのコードでは、(1)でOCRエンジンのオブジェクトが取得できなかったため、
#
#  https://tsukimitech.com/pyocr-get_available_tools/
#
# の記事を参考にして、次のコードを追加。
pyocr.tesseract.TESSERACT_CMD = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
#(1)OCRエンジンのオブジェクトを取得して、リスト変数「tools」に格納する処理
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("OCRツールが見つかりませんでした")
    sys.exit(1)
print('tools = ', tools)
#(2)実際に使うOCRエンジンオブジェクトを取り出して、変数「tool」に格納する処理
tool = tools[0]
print('tool = ', tool)
#(3)実際に文字認識処理を行っているコード
txt = tool.image_to_string(
  Image.open('Img2.jpg'),
  lang='jpn+eng',
  builder=pyocr.builders.TextBuilder()
)
print('txt=', txt)





お気に入りの記事を「いいね!」で応援しよう

最終更新日  2021.05.31 20:16:30
コメント(0) | コメントを書く



© Rakuten Group, Inc.