719898
ホーム \| 日記 \| プロフィール	【フォローする】【ログイン】

mlupinのブログ

【毎日開催】

15記事にいいね！で1ポイント

10秒滞在

いいね! --/--

次の日記を探す

おめでとうございます！
ミッションを達成しました。

※「ポイントを獲得する」ボタンを押すと広告が表示されます。

キーワードサーチ

▼キーワード検索

カレンダー

コメント新着

aki@ Re:今朝の朝食は、じゃがいものポタージュスープ(01/20) この様な書込大変失礼致します。日本も当…

mlupin@ Re:いちごの苗2023 その後　花が？(12/21) かずパパさん、コメントありがとうござい…

かずパパ@ Re:いちごの苗2023 その後　花が？(12/21) こんにちは、藻緯羅さんのブログから来ま…

mlupin@ Re[1]:今朝の朝食は、食事系のパンケーキ(11/26) 藻緯羅さんへいつもコメントありがとうご…

カテゴリ

カテゴリ未分類

(72)

Jpyter Notebook

(3)

Docker for Windows

(0)

Python

(130)

その他

(5)

ROBi2

(31)

今日のランチ

(1570)

今日の花

(545)

季節のできごと

(1424)

買い物

(7)

ノートパソコン

(20)

今日のおやつ

(2408)

今日のできごと

(487)

今日のスイーツ

(27)

不思議なできごと

(1)

キャラクター・グッズ

(27)

今日の夕飯

(1242)

今日の小さな奇跡

(273)

私のポイント生活

(86)

今日の映画

(4)

名所・旧跡等

(9)

今日の朝食

(1420)

健康に関すること

(36)

私の懸賞生活

(2)

私のパソコンライフ

(13)

私のデジタルライフ

(17)

川柳

(1)

Toon Blast

(45)

今日のドラマ

(3)

テーマパーク

(4)

韓流

(35)

神社・仏閣

(1)

マンホール

(2)

何かを作る

(1)

旅行

(22)

バックナンバー

2024.04
2024.03
2024.02

2024.01
2023.12

< 新しい記事

新着記事一覧(全9973件)

過去の記事 >

2021.05.31

「Pythonで自動化」（後編）　その９リスト４－２

テーマ：パソコンを楽しむ♪(3520)

カテゴリ：Python

#　リスト４ー２

#　　PyOCRを用いて、Tesseract OCRによるOCRを実施するテストプログラム

#　　　（Img2.jpg用）

#　　「日経ソフトウエア」2020.07

#　　『特集５　Pythonで自動化』p.073～p.077

#　　■OCRのライブラリをインストール。p.073

#　　　PythonでOCRを行うには、２つのライブラリ「Tesseract OCR」と「PyOCR」が必要。

#　　　「Tesseract OCR」は、そのままでは、Pythonでは使えないので、ラッパーである

#　　　「PyOCR」も併用する。

#　　・「Tesseract OCR」のインストール

#　　　次のURLからインストーラーをダウンロードしてインストールする。

#　　　https://digi.bib.uni-mannheim.de/tesseract/

#　　からアルファ版ではない「tesseract-ocr-w64-setup-v5.0.0.20190623.exe」を

# ダウンロードして、インストールする。

#　　　この時インストール先をメモしておくこと。

# (デフォルトでは、C:\Program Files\Tesseract-OCR)

#　　（注１）日本語が使用できるように、

#　　　インストールする言語のコンポーネント選択画面で、日本語関連の項目［Japanese～」

# 　 2つずつ計4項目にチェックを入れること。

#　　（注２）使えるようにするには、Windows10の環境変数の設定が必要。

#　　　　１　コントロールパネルにある「システムのプロパティ」を開き、［詳細設定］タブの［環境変数］を開く。

#　　　　２　既存のユーザー環境変数「Path」にTesseractOCRのインストール先のパスを追加する。

#　　・Tesseract OCR単体での体験

#　　　Tesseract OCRは、コマンドプロンプトから実行可能なので、PNG画像「Confidential.png」をホームディレクトリに置いて、

#　　　　tesseract.exe Confidential.png result -l jpn+eng

#　　　を実行すると、result.txtに画像からOCRで読み取った文字が格納される。

#　　・PyOCRのインストール

#　　　次のように、Anaconda Prompt上で、pipコマンドでインストールする。

# pip install pyocr

#　　　（執筆時点では、condaコマンドでは、インストールできないとのこと。）

# ■注

#　　　　　・記号「#」以降はコメント。（番号）は、本文の説明用の番号。［番号］は筆者が付加したコメント。

#　　　　　・元々のリストにない「print」文は、筆者のデバッグのために挿入したもの。

print('Start!!')

from PIL import Image

import sys

import pyocr

#　本文のままのコードでは、（１）でOCRエンジンのオブジェクトが取得できなかったため、

#　　https://tsukimitech.com/pyocr-get_available_tools/

#　の記事を参考にして、次のコードを追加。

pyocr.tesseract.TESSERACT_CMD = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'

#（１）OCRエンジンのオブジェクトを取得して、リスト変数「tools」に格納する処理

tools = pyocr.get_available_tools()

if len(tools) == 0:

print("OCRツールが見つかりませんでした")

sys.exit(1)

print('tools = ', tools)

#（２）実際に使うOCRエンジンオブジェクトを取り出して、変数「tool」に格納する処理

tool = tools[0]

print('tool = ', tool)

#（３）実際に文字認識処理を行っているコード

txt = tool.image_to_string(

Image.open('Img2.jpg'),

lang='jpn+eng',

builder=pyocr.builders.TextBuilder()

)

print('txt＝', txt)

お気に入りの記事を「いいね！」で応援しよう

最終更新日 2021.05.31 20:16:30
コメント(0) | コメントを書く

[Python] カテゴリの最新記事