winactorでocr処理と言えばWinActorEyeのocr機能を利用できますが、
精度がイマイチで実用的ではありません。
下記で解説しました。
本記事はGoogleのオープンソースOCRツールであるTesseractを用いて
ちょっとでも精度をあげて実用化する!
という記事です。
下記のページからインストールします。
windows用インストーラになります。
64ビット版をダウンロードします。
日本語はないようです。
他のアプリケーションをすべて閉じてからセットアップしてください。
利用規約になります。
PCを利用している他のアカウントにもインストールするか、
自分だけにインストールするかを聞いています。
私の場合、自分しかこのPCは利用していないためどちらでもいいのです。
日本語の読み込みを可能にするため下記を追加でチェックします。
Additional script data内の下記の2項目にチェックを入れます。
更にAdditional script data内の下記の2項目にもチェックを入れます。
Nextをクリックします。
ここはインストールするフォルダを聞いています。
特に変更する必要はないと思います。
※どこにインストールされたかは後々大切になってきますので確認しておく必要があります。
インストールを実行します。
Finishを押下すれば完了です。
まずはコマンドプロンプトにてtesseractを実行してみます。
tesseractがインストールされているフォルダに移動します。
cdはフォルダの移動を意味します。
cd C:\Users\ユーザ名\AppData\Local\Programs\Tesseract-OCR
※パスは一緒とは限りませんのご注意ください。
インストールされているか確かめてみましょう。
tesseract –version
下記のように表示されればとりあえずはOKです。
それではOCRしてみましょう!
Tesseract-OCRフォルダ内に画像ファイルを入れます。
用いる画像はyahooニュースの一部です。
コマンドプロンプト上で下記のように記述します。
※今いるディレクトリがTesseract-OCRになっていることを確認しましょう。
tesseract yahoo.png yahoo -l jpn
→yahoo.pngはocrしたいファイル名になります。
yahooは出力ファイル名になりますので実行するとyahoo.txtが出力されま
す。
最後の-l jpnですが日本語をocrしたい場合につけるオプションです。
-l jpnのlはアルファベットです。数字ではありません。
※・・・・permission deniedといったエラーが出現した場合、コマンドプロンプトを管理者として実行してみてください。
notepad yahoo.txt
→メモ帳でyahoo.txtを開くということです。
さあどうでしょうか。
これをどう判断するかは読者様にお任せします。
尚、手書き文字はもっと苦しいです。
それではwinactorでTesseractを起動します。
ノード→アクション→コマンド実行を用います。
詳細設定します。
・コマンド Tesseractの実行ファイルをフルパスで設定します。
C:\Users\ユーザ名\AppData\Local\Programs\Tesseract-OCR\Tesseract.exe
※ユーザ名やパスはご自身のPC環境によって異なります。
・オプション まずはocrしたいファイルのフルパスを、次にocr後の出力ファイ
ルのフルパスを記載します。
最後に日本語をocrしたい場合につける-l jpnを追加します。
C:\Users\ユーザ名\Desktop\yahoo.png C:\Users\ユーザ名\Desktop\yahoo -l jpn
※ユーザ名やパスはご自身のPC環境によって異なります。
以上で設定完了です。
実行すればデスクトップにyahoo.txtが出力されます。
当然コマンドプロンプトで実行した読み取り結果と同様になります。
さてWinActorEyeのocrと比べてみましょう。
yahoo.pngをWinActorEyeでocrしてみます。
WinActorEyeのocrについては下記をどうぞ。
左はTesseract、真ん中はocr処理用の画像ファイル、右がWinActorEyeのocrです。
いかがでしょうか。
少なくともWinActorEyeのocrよりは良さそうですね。
このように外部連携でWinActorをよりパワーアップできます。
Tesseractでもまだまだ実用化は難しいかもしれません。
しかしながらocrの制度は年々アップしており無料で利用できる高精度のocrが利用できる日がくるかもしれません。
楽しみですね。
下記は参考書籍になります。
RPAと言えば有名な完全自動化研究所からの書籍になります。