放送大学・放送大学大学院・OUJ・社会人学生・ブログ：ふってわいたお題にチャレンジ：その2

FAXで送信された用紙をPDF化したモノの文字を読み取るということ実現しようの巻、第2弾です。
このシリーズ、すごい続いて、途中で終わりそう。

全体像
FAX送信された用紙の罠

全体像

↓こちらが参考になります。

ガンマソフト「PythonでOCRを実行する方法」
https://gammasoft.jp/blog/ocr-by-python/

ガンマソフトさんはPythonに関する有益な情報が多いです。Python関連で検索するとガンマソフトさんのウェブページがヒットすることも多いです。

FAX送信された用紙の罠

今しようとしていることは、お客様からFAXで届く注文書の内容を読み取るということです。
注文書は各お客様ごとに定型フォーマットがあり、そこに入力されている文字はほぼすべて活字＝人間が手書きしたものではありません。
一部手書きの部分がありますが、読み取りをする必須項目はすべて活字です。

定型フォーマットは10種類近くあります。すごい多いわけでもありませんし、「定型」ですから、その内容を読み取ることができるようなプログラムを1回作ればOKです。(そんなに簡単ではありませんが。)

上記ガンマソフトさんの「PythonでOCRを実行する方法」にもありますが、読み取りたい項目の「位置」を調べて、その部分をピンポイントで読み取る方法を採用します。
PDFを画像化(JPGやPNGなどにする)して、ペイント(Windowsの場合)で開いて、読み取りたい項目にマウスポインタを置くことにより、たて・横の位置を表した数値(座標軸)を確認することにより、「位置」を調べることができます。

しかし、今日で分かったことですが、定型フォーマットとはいっても、FAX送受信の状況により、読み取りたい項目の「位置」が変わってくるのですよ。😵
それも、誤差範囲程度ではなく、がっつり変わります。

FAXってそういうものやったんですか？！？！
という衝撃を受けました。

そんなわけで第2弾ですでに終わりそうな予感すら漂います。・・・とはいっても何とかしたいので、もう少し粘ってみます。