久しぶりの投稿です。ご無沙汰しております。T2です。
T2って何ですか?と聞かれるときがあるのですが、代表田牧が名付けたコードネームのようなものです。(名刺にも記載されています)
代表田牧は D-SK(だいすけ→デースケ)、T2は(たつや→ティーツー)のような感じですね。
ロボ研に入社すると、強制でつけられます。
本題ですが、最近セミナーや講習会で「OCR」に関するお問い合わせをいただくことが多くあります。
今回はPower Automate for desktop での OCR についてお話しします。
OCR機能
Power Automate for desktop(PA4d)では、以下のOCRに関するアクションが用意されています。
- Tesseract OCRを使用する
- Microsoft コグニティブ > Computer Vision > OCR を使用する
- Google コグニティブ > ビジョン > テキスト検出 を使用する
Tesseractを使えば読める…!?と思って、チャレンジした方もいらっしゃると思います。
帳票によってはそれなりに読めるけど、ダメなものは全くダメという結果だったのではないでしょうか。
そこで、今回は「Microsoft コグニティブ > Computer Vision > OCR(以下 Read API)」を使用してみたいと思います。
Computer Vision は、 Azure Cognitive Service というMicrosoftが提供する AIプラットフォームの中の画像解析を行うためのAIサービスで、Read API はOCR(テキスト化)するための仕組みです。
枚数制限など制約などはありますが、無料で使用することも可能なので、紙のデータ化に苦労している方は、是非一度お試しください。
アクションを使うだけなので簡単!と行きたいところですが、このアクションは古いバージョン(v2.x)を呼び出しているため、読み取り精度が精度が低いです。
MicrosoftのOCRなら精度が高いかも!と思われた使った方の中には、期待外れだった…という方もいらっしゃるのではないのでしょうか。
Read APIの最新バージョンでは、読み取り精度が圧倒的に向上しており、手書き文字も読み取れる(まだ日本語は正式リリースされていませんが、)ようになっていたりします。
今回は、PA4d から 最新版のRead API を実行してみますが、
Power Automate からの呼び出しは Microsoft MVP の Hiroさんがブログにまとめてくださっていますので、Power Automate ユーザーの方は是非そちらもご確認ください。
Computer Vision – Read API を Power Automate で利用する方法 – MoreBeerMorePower (hatenablog.com)
事前準備
Cognitive Service を使うためには、Azure上に環境を構築する必要があります。
1.Azure Portal にサインインしてください
Microsoft Azure Portal | Microsoft Azure
2.Computer Vision を Marketplace より追加します
3.項目を設定します。リソースグループなどは適宜作成してください。
4.作成します。
5.リソースに移動します
6.Keys and Endpoint(キーとエンドポイント)を選択します
フロー
※ 自由にご利用ください。また、これを使って業務改善できそうだ!という方は、是非twitterなどでご報告いただけると励みになります。販売を行ったり、パートナー以外がセミナー等で使用することは禁止させていただきます。
上記で作成したリソースから[エンドポイント]を %Endpoint% に、[キー1(またはキー2)]を %SubscriptionKey% に設定します。
ModelVersionは精度の関係で、意図的に[2021-09-30-preview]を指定しています。
[latest]に設定するとGAされたものを使用するので、実運用ではそちらの方がいいかもしれません。
また設定していないオプションもあるため、詳細はリファレンスをご確認ください。
Cognitive Services APIs Reference (microsoft.com)
今回は cURL を使ってAPIを実行しています。
画像データを送る時は PowerShell or cURL ですが、私は楽なのでいつも cURL を使います。
また[multipart/form-data]でも送れましたが、一部のフォーマットのデータが送れないので[application/octet-stream]で送ります。
読み取り結果
手書きもきちんと読み取れていますね。
これが無料で使えるってホントにすごいと思います。
PA4d は各アクションの特徴を知り、きちんとした使い方が出来れば、かなりの武器になります。
PA4d を全力で使い倒したい方は、是非ロボ研のサポートをご検討ください!
ロボ研では、Power Automate を利用したフローの導入・運用・開発支援、
Power AppsなどのPower Platformを活用した効率化支援、
リスキリングに関するご支援を行っております。
お客様の業務効率化・生産性向上に向け、最大限のご支援をさせていただきます。
ぜひご相談ください。
◆ Power Automate / Power Automate for desktop 向けサポートサイト ◆
Power Automate サポート ★一部無償でご覧いただけます★
◆ セミナー定期開催中◆
事務スタッフが始める!自動化・デジタル化Webセミナー(オンライン/無料)
リスキリング経験者&DXアドバイザーによる”現場のリスキリングセミナー
◆ 過去の記事 ◆
ブログ記事一覧
◆ 書籍 ◆
Power Automate for desktop(Power Automate Desktop)や RPA に関する書籍を出版、監修しております。