Photo by Unsplash, Ivana Dinunno
ふってわいたお題に挑んでおります。(ことの発端はコチラ → 3/5の記事)
FAXで送信された用紙をPDF化したモノの文字を読み取るということ実現しようとしております。
おおまかな方針
FAXで送信された用紙をスキャンしてPDFにしているので、そこに表示されている文字列は「テキスト」ではなく「画像」となります。
そこで、
画像を読み取る → そこから文字列を読み取る、
という2段階で作業を進めることになるそうです。
メンドウですけど、新しい技術を習得できるということで、がんばっていきましょう。😊
Tesseract OCR をパソコンにインストール
「画像」の文字を読み取るには、OCRの機能を持つものを準備することが必須。そこで「Tesseract OCR」が必要ということになりました。
でもこれは使っているパソコンへのインストールが必要です。😞
↓こちらのウェブページを参考にしました。
インストール後のテスト方法も記載されていて、とても助かりました。
気まぐれIT「【Tesseract OCR】Tesseract OCRをWindowsにインストールする方法」https://fickle-it.net/2023/04/tesseract-ocr-install-windows/
ありがとうございます。とても助かりました。
というのはインストール開始後、すぐに言語を選択しないといけないのですが「Japanese」がないのですよ!(2026年3月9日時点の最新版)
Google製なので日本語がないのは仕方ないんですけどね。日本ももうどんどん貧しくなっていて、国力も落ちていますしね。
というのは考えすぎで、インストール途中で「日本語」を選択することができます。
ただし分かりづらいですね。というわけで気まぐれITさんの記事がとても役立ちました。
さてここからがたいへんですよ。
このシリーズ、どのくらい続くのでしょうか。
そもそもワタシできるのやろか。・・・というわけで「その2」に続きます。
ブログ:1168

コメント