apice-technologymemorandum
投稿日時:2023/12/21
更新日時:2023/12/22
CHAT GPT 画像から日本語 テキスト抽出
画像からテキストを抜き出し機能があるようですが、どうも日本語が標準で入ってないようです。
日本語のできる OCRソフトが必要といわれます。
ネットで見てみると、 GPT のCODE Interpreterを使うことと、Python の OCR pytesseract を使えばできるとあった。
https://zenn.dev/u_motion_tech/articles/d323eced24a2e6
Python で日本語のOCRをセットアップ
https://opty-life.com/study/program/python/python-lecture-34/#toc4
Tesseract のインストール
https://github.com/UB-Mannheim/tesseract/wiki/
下記がダウンロードされます。
tesseract-ocr-w64-setup-5.3.3.20231005.exe
https://digi.bib.uni-mannheim.de
下記ディレクトリーにセットアップされます。 自分のローカルPCですね。
C:\Program Files\Tesseract-OCR
セットアップ完了 この時点では英語版のOCR機能
次に日本語対応のセットアップ
https://github.com/tesseract-ocr/tessdata_best
ダウンロードしたファイルは、先ほどインストールしたTesseract-OCRのフォルダの中にある「tessdata」というフォルダに入れて下さい。
jpn.traineddata
jpn_vert.traineddata
注:こちらのファイルの意味ですが
jpn が横書きの日本語を読む場合
jpn_vert は縦書きの日本語 ということです。
PYTHON用ライブライ「pytesseract」をインストール
コマンドの実行
pip install pytesseract どうやって? 調べる
まずは PYTHONが入っているかを確認する。
大丈夫なら
Microsoft Windows [Version 10.0.22621.2861]
(c) Microsoft Corporation. All rights reserved.
C:\Users\hystou>python --version <<python が入っていればバージョンがでる
Python 3.10.6
C:\Users\hystou>pip install pytesseract <<これを打つと pytesseract が入る
Collecting pytesseract
Downloading pytesseract-0.3.10-py3-none-any.whl (14 kB)
Collecting packaging>=21.3
Downloading packaging-23.2-py3-none-any.whl (53 kB)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 53.0/53.0 kB ? eta 0:00:00
Collecting Pillow>=8.0.0
Using cached Pillow-10.1.0-cp310-cp310-win_amd64.whl (2.6 MB)
Installing collected packages: Pillow, packaging, pytesseract
Successfully installed Pillow-10.1.0 packaging-23.2 pytesseract-0.3.10
[notice] A new release of pip available: 22.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip
C:\Users\hystou>
日本語のデータファイルをアップして、GPTがセットアップできるかやってみたが、GPT側にルールがあってセットアップができないみたいだ。
Tesseract OCRが日本語データファイルを読み込むことができず、エラーが発生しました。これは、前述した通り、私の環境にはアクセス権限の制限があるため、アップロードされたjpn.traineddataファイルをTesseractのtessdataディレクトリに配置することができなかったためです。
そのため、ここでは日本語のテキスト抽出を実行することはできません。代わりに、ご自身のローカル環境でTesseractとpytesseractを設定して、OCR処理を行うことをお勧めします。必要なファイルは既にお持ちですので、以下の手順に従って設定してください。
Tesseract OCRがインストールされていることを確認します。
jpn.traineddata と jpn_vert.traineddata をTesseractのtessdataディレクトリに配置します。
pytesseractを使ってOCRを実行し、lang='jpn'オプションを指定して日本語テキストを抽出します。
このプロセスを完了すると、日本語のテキスト抽出が可能になります。