OCRとスクレイピングどちらを利用するか?
10分以内に結論を出せるか?
スキルがなくともIT・AIの力で実現できることが増えました。
ノンプログラマーにとってはありがたい時代なのですが、
手段に振り回されないことが次の課題です。
試行錯誤の段階も変化しますね。

1分以内に完食(笑)
どちらを利用 編集→オリジナルの資料
資料やパンフレットがあると、手元に置きたくなります。
なにかの役に立つのではないか?という貧乏性かもしれません(笑)。
ウェブ上でも統計や一覧などのデータあると保存したりします。
ちょっと参照する程度であれば、画像データのまま保存します。
他方、もう一歩踏み込んで利用しようとすると編集が必要です。
シンプルでもオリジナルの資料であれば使い勝手が良くなります。
テキストデータであっても扱えるよう処理する過程が課題です。
どちらを利用 OCRとスクレイピング
私の住む石川県でも金融機関の再編や支店の統廃合が進んでいます。
支店名は残っていても、実態は「店舗内店舗」での存続だったりします。
支店名と現住所の確認する機会が増えています。
銀行のサイト上に支店の一覧は掲載されていますが、
自分専用にまとめておきたくもなります。
支店名と住所のデータだけをまとめる処理が課題です。
技術上「OCR」と「スクレイピング」による処理が選択肢になります。
スクレイピングから試してみました。
生成AIのGeminiを利用して、GAS(Google Apps Script)を利用して
Googleスプレッドシートに書き出しを期待しました。
20分の試行錯誤の結果、今度はChatGPTに交代。
しかし、残念ながら結果は空振りでした。
次にGoogleドライブのOCR機能を利用してみました。
- サイトの支店一覧をスクリーンショット
- 画像をGoogleドライブにアップロード
- 画像ファイルをGoogleドキュメントで開く
こちらは3分で完了でした(笑)。
どちらを利用 10分以内に結論!
OCRがスクレイピングより優れているとは言い切れません。
利用状況によっては負担が増えてしまいます。
- 画像データをあらかじめ準備する必要がある
- 完璧に読み取れるとは言えない
- 後工程の処理が煩雑
技術的な支障がなければ、スクレイピングが優位なこともありそうです。
技術的・処理の効率性とは別にして、
- どちらを選択するか短時間で結論を出せるか?
といった視点が無視できません。
ちょっとした資料の作成にのめり込んでいては本末転倒です。
ITやAIによる選択肢が揃うことには魅力がありますが、
手段に振り回されない判断が必要になります。
10分以内にどちらを選択するか?といった設定をすると
グッと問題の解像度が上がります。
お仕着せ・天下りでの結論はなく、手を動かしてみることで
納得のいく結論が出せるのでおすすめです。
技術やスキルよりも目的を優先して選択ができます。
蛇足
アイキャッチ画像は「山野草‐抹茶仕立(柴舟小出 金沢市)」です。
5月は新茶の季節ということで抹茶関連のお菓子が目立ちます。
抹茶仕立ですがコーヒーにも合うおいしさでした。
<ご案内>
■林友範税理士事務所
■災害と税金の情報