apice-technologymemorandum

CHAT GPT 画像から日本語 テキスト抽出

画像からテキストを抜き出し機能があるようですが、どうも日本語が標準で入ってないようです。
日本語のできる OCRソフトが必要といわれます。
ネットで見てみると、 GPT のCODE Interpreterを使うことと、Python の OCR pytesseract を使えばできるとあった。
https://zenn.dev/u_motion_tech/articles/d323eced24a2e6

Python で日本語のOCRをセットアップ
https://opty-life.com/study/program/python/python-lecture-34/#toc4


Tesseract のインストール
https://github.com/UB-Mannheim/tesseract/wiki/
下記がダウンロードされます。

tesseract-ocr-w64-setup-5.3.3.20231005.exe
https://digi.bib.uni-mannheim.de

下記ディレクトリーにセットアップされます。 自分のローカルPCですね。

C:\Program Files\Tesseract-OCR

セットアップ完了  この時点では英語版のOCR機能

次に日本語対応のセットアップ

https://github.com/tesseract-ocr/tessdata_best


ダウンロードしたファイルは、先ほどインストールしたTesseract-OCRのフォルダの中にある「tessdata」というフォルダに入れて下さい。
jpn.traineddata
jpn_vert.traineddata


注:こちらのファイルの意味ですが
jpn が横書きの日本語を読む場合
jpn_vert は縦書きの日本語 ということです。


PYTHON用ライブライ「pytesseract」をインストール


コマンドの実行

pip install pytesseract どうやって? 調べる


まずは PYTHONが入っているかを確認する。

大丈夫なら

Microsoft Windows [Version 10.0.22621.2861]
(c) Microsoft Corporation. All rights reserved.

C:\Users\hystou>python --version        <<python が入っていればバージョンがでる
Python 3.10.6

C:\Users\hystou>pip install pytesseract     <<これを打つと pytesseract が入る
Collecting pytesseract
Downloading pytesseract-0.3.10-py3-none-any.whl (14 kB)
Collecting packaging>=21.3
Downloading packaging-23.2-py3-none-any.whl (53 kB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 53.0/53.0 kB ? eta 0:00:00
Collecting Pillow>=8.0.0
Using cached Pillow-10.1.0-cp310-cp310-win_amd64.whl (2.6 MB)
Installing collected packages: Pillow, packaging, pytesseract
Successfully installed Pillow-10.1.0 packaging-23.2 pytesseract-0.3.10

[notice] A new release of pip available: 22.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip

C:\Users\hystou>




日本語のデータファイルをアップして、GPTがセットアップできるかやってみたが、GPT側にルールがあってセットアップができないみたいだ。

Tesseract OCRが日本語データファイルを読み込むことができず、エラーが発生しました。これは、前述した通り、私の環境にはアクセス権限の制限があるため、アップロードされたjpn.traineddataファイルをTesseractのtessdataディレクトリに配置することができなかったためです。

そのため、ここでは日本語のテキスト抽出を実行することはできません。代わりに、ご自身のローカル環境でTesseractとpytesseractを設定して、OCR処理を行うことをお勧めします。必要なファイルは既にお持ちですので、以下の手順に従って設定してください。

Tesseract OCRがインストールされていることを確認します。
jpn.traineddata と jpn_vert.traineddata をTesseractのtessdataディレクトリに配置します。
pytesseractを使ってOCRを実行し、lang='jpn'オプションを指定して日本語テキストを抽出します。
このプロセスを完了すると、日本語のテキスト抽出が可能になります。 ​

AI関連カテゴリーに戻る

1