apice-technologymemorandum
投稿日時:2023/12/05
更新日時:2023/12/08
chat gptプラグイン Scraper
WEB ページからデータを抽出するツール
指定の仕方
web_scraper.scrape({
url: "https://abcnews.go.com/US/",
"type: " "text"
})
TYPE の指定
"text": ページのテキストを抽出する
"links":ページ内のリンクを抽出する
"Images":ページ内の画像を抽出する
このプロンプトを投げることで、ページのスクレイピングをしてくれて、テキスト、画像、リンクの抽出を行ってくれます。
: の後は半角のスペースを入れるとより良いです。
何ページかやってみましたが、長いページや、いろいろなコンテンツがあるページ等は、ページ読み取りでタイムアウトで
エラーとなってしまいます。 使い方を考えるのが良いかと。
そんな時に役に立つのが、CHAT GPT の 画像認識の機能です。
ひと手間かかりますが、タイムアウトになったページを、スナップショットをとって、画像として扱うのですね、
画像を CHAT GPTにアップして、その中からテキストを抽出、 これ結構精度が高くすごいです。
AIの機能強化のスピードが目覚ましいので、今日できないことも明日できるようになっているかもしれないので、
AIはダメだではなく、AIとともに一緒に歩んでいくと、劇的な作業効率を得ることも、今までなしえなかったことが、
ものすいごいスピードでできるようになる。