Photo by Unsplash, Joshua Woroniecki
FAXで送信された用紙をPDF化したモノの文字を読み取るということ実現しようの巻、第2弾です。
このシリーズ、すごい続いて、途中で終わりそう。
全体像
↓こちらが参考になります。
ガンマソフト「PythonでOCRを実行する方法」
https://gammasoft.jp/blog/ocr-by-python/
ガンマソフトさんはPythonに関する有益な情報が多いです。Python関連で検索するとガンマソフトさんのウェブページがヒットすることも多いです。
FAX送信された用紙の罠
今しようとしていることは、お客様からFAXで届く注文書の内容を読み取るということです。
注文書は各お客様ごとに定型フォーマットがあり、そこに入力されている文字はほぼすべて活字=人間が手書きしたものではありません。
一部手書きの部分がありますが、読み取りをする必須項目はすべて活字です。
定型フォーマットは10種類近くあります。すごい多いわけでもありませんし、「定型」ですから、その内容を読み取ることができるようなプログラムを1回作ればOKです。(そんなに簡単ではありませんが。)
上記ガンマソフトさんの「PythonでOCRを実行する方法」にもありますが、読み取りたい項目の「位置」を調べて、その部分をピンポイントで読み取る方法を採用します。
PDFを画像化(JPGやPNGなどにする)して、ペイント(Windowsの場合)で開いて、読み取りたい項目にマウスポインタを置くことにより、たて・横の位置を表した数値(座標軸)を確認することにより、「位置」を調べることができます。
しかし、今日で分かったことですが、定型フォーマットとはいっても、FAX送受信の状況により、読み取りたい項目の「位置」が変わってくるのですよ。😵
それも、誤差範囲程度ではなく、がっつり変わります。
FAXってそういうものやったんですか?!?!
という衝撃を受けました。
そんなわけで第2弾ですでに終わりそうな予感すら漂います。・・・とはいっても何とかしたいので、もう少し粘ってみます。
ブログ:1169

コメント