ふってわいたお題にチャレンジ:その1

活動日報

Photo by Unsplash, Ivana Dinunno

ふってわいたお題に挑んでおります。(ことの発端はコチラ → 3/5の記事)
FAXで送信された用紙をPDF化したモノの文字を読み取るということ実現しようとしております。

おおまかな方針

FAXで送信された用紙をスキャンしてPDFにしているので、そこに表示されている文字列は「テキスト」ではなく「画像」となります。
そこで、
画像を読み取る → そこから文字列を読み取る、
という2段階で作業を進めることになるそうです。
メンドウですけど、新しい技術を習得できるということで、がんばっていきましょう。😊

Tesseract OCR をパソコンにインストール

「画像」の文字を読み取るには、OCRの機能を持つものを準備することが必須。そこで「Tesseract OCR」が必要ということになりました。
でもこれは使っているパソコンへのインストールが必要です。😞

↓こちらのウェブページを参考にしました。
インストール後のテスト方法も記載されていて、とても助かりました。

気まぐれIT「【Tesseract OCR】Tesseract OCRをWindowsにインストールする方法」https://fickle-it.net/2023/04/tesseract-ocr-install-windows/

ありがとうございます。とても助かりました。
というのはインストール開始後、すぐに言語を選択しないといけないのですが「Japanese」がないのですよ!(2026年3月9日時点の最新版)
Google製なので日本語がないのは仕方ないんですけどね。日本ももうどんどん貧しくなっていて、国力も落ちていますしね。

というのは考えすぎで、インストール途中で「日本語」を選択することができます。
ただし分かりづらいですね。というわけで気まぐれITさんの記事がとても役立ちました。

さてここからがたいへんですよ。
このシリーズ、どのくらい続くのでしょうか。
そもそもワタシできるのやろか。・・・というわけで「その2」に続きます。

にほんブログ村 教育ブログへ にほんブログ村 教育ブログ 在宅学習・通信教育へ にほんブログ村 大学生日記ブログ 社会人大学院生へ にほんブログ村 大学生日記ブログ 通信大学生(放送大学)へ ブログランキング・にほんブログ村へ

ブログ:1168

コメント

タイトルとURLをコピーしました