apice-technologymemorandum

投稿日時：2023/12/21

更新日時：2023/12/22

CHAT GPT 画像から日本語　テキスト抽出

画像からテキストを抜き出し機能があるようですが、どうも日本語が標準で入ってないようです。
日本語のできる　OCRソフトが必要といわれます。
ネットで見てみると、　GPT　のCODE Interpreterを使うことと、Python　の　OCR　pytesseract を使えばできるとあった。
https://zenn.dev/u_motion_tech/articles/d323eced24a2e6

Python　で日本語のOCRをセットアップ
https://opty-life.com/study/program/python/python-lecture-34/#toc4

Tesseract のインストール
https://github.com/UB-Mannheim/tesseract/wiki/
下記がダウンロードされます。

tesseract-ocr-w64-setup-5.3.3.20231005.exe
https://digi.bib.uni-mannheim.de

下記ディレクトリーにセットアップされます。　自分のローカルPCですね。

C:\Program Files\Tesseract-OCR

セットアップ完了　　この時点では英語版のOCR機能

次に日本語対応のセットアップ

https://github.com/tesseract-ocr/tessdata_best

ダウンロードしたファイルは、先ほどインストールしたTesseract-OCRのフォルダの中にある「tessdata」というフォルダに入れて下さい。
jpn.traineddata
jpn_vert.traineddata

注：こちらのファイルの意味ですが
jpn が横書きの日本語を読む場合
jpn_vert は縦書きの日本語　ということです。

PYTHON用ライブライ「pytesseract」をインストール

コマンドの実行

pip install pytesseract どうやって？　調べる

まずは　PYTHONが入っているかを確認する。

大丈夫なら

Microsoft Windows [Version 10.0.22621.2861]
(c) Microsoft Corporation. All rights reserved.

C:\Users\hystou>python --version　　　　　　　　＜＜python が入っていればバージョンがでる
Python 3.10.6

C:\Users\hystou>pip install pytesseract　　　　　＜＜これを打つと　pytesseract が入る
Collecting pytesseract
Downloading pytesseract-0.3.10-py3-none-any.whl (14 kB)
Collecting packaging>=21.3
Downloading packaging-23.2-py3-none-any.whl (53 kB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 53.0/53.0 kB ? eta 0:00:00
Collecting Pillow>=8.0.0
Using cached Pillow-10.1.0-cp310-cp310-win_amd64.whl (2.6 MB)
Installing collected packages: Pillow, packaging, pytesseract
Successfully installed Pillow-10.1.0 packaging-23.2 pytesseract-0.3.10

[notice] A new release of pip available: 22.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip

C:\Users\hystou>

日本語のデータファイルをアップして、GPTがセットアップできるかやってみたが、GPT側にルールがあってセットアップができないみたいだ。

Tesseract OCRが日本語データファイルを読み込むことができず、エラーが発生しました。これは、前述した通り、私の環境にはアクセス権限の制限があるため、アップロードされたjpn.traineddataファイルをTesseractのtessdataディレクトリに配置することができなかったためです。

そのため、ここでは日本語のテキスト抽出を実行することはできません。代わりに、ご自身のローカル環境でTesseractとpytesseractを設定して、OCR処理を行うことをお勧めします。必要なファイルは既にお持ちですので、以下の手順に従って設定してください。

Tesseract OCRがインストールされていることを確認します。
jpn.traineddata と jpn_vert.traineddata をTesseractのtessdataディレクトリに配置します。
pytesseractを使ってOCRを実行し、lang='jpn'オプションを指定して日本語テキストを抽出します。
このプロセスを完了すると、日本語のテキスト抽出が可能になります。

AI関連カテゴリーに戻る

apice-technologymemorandum

アピスの備忘録

category

CHAT GPT 画像から日本語　テキスト抽出

apice-technologymemorandum

アピスの備忘録

category

CHAT GPT 画像から日本語 テキスト抽出

CHAT GPT 画像から日本語　テキスト抽出