T2 Labs「Power Automate for desktopから最新のRead API(OCR)を実行する」


久しぶりの投稿です。ご無沙汰しております。T2です。
T2って何ですか?と聞かれるときがあるのですが、代表田牧が名付けたコードネームのようなものです。(名刺にも記載されています)
代表田牧は D-SK(すけ→デースケ)、T2は(たつや→ティーツー)のような感じですね。
ロボ研に入社すると、強制でつけられます。

 

本題ですが、最近セミナーや講習会で「OCR」に関するお問い合わせをいただくことが多くあります。
今回はPower Automate for desktop での OCR についてお話しします。

OCR機能

Power Automate for desktop(PA4d)では、以下のOCRに関するアクションが用意されています。

  • Tesseract OCRを使用する
  • Microsoft コグニティブ > Computer Vision > OCR を使用する
  • Google コグニティブ > ビジョン > テキスト検出 を使用する

 
Tesseractを使えば読める…!?と思って、チャレンジした方もいらっしゃると思います。
帳票によってはそれなりに読めるけど、ダメなものは全くダメという結果だったのではないでしょうか。

そこで、今回は「Microsoft コグニティブ > Computer Vision > OCR(以下 Read API)」を使用してみたいと思います。
Computer Vision は、 Azure Cognitive Service というMicrosoftが提供する AIプラットフォームの中の画像解析を行うためのAIサービスで、Read API はOCR(テキスト化)するための仕組みです。
枚数制限など制約などはありますが、無料で使用することも可能なので、紙のデータ化に苦労している方は、是非一度お試しください。

 

アクションを使うだけなので簡単!と行きたいところですが、このアクションは古いバージョン(v2.x)を呼び出しているため、読み取り精度が精度が低いです。
MicrosoftのOCRなら精度が高いかも!と思われた使った方の中には、期待外れだった…という方もいらっしゃるのではないのでしょうか。
Read APIの最新バージョンでは、読み取り精度が圧倒的に向上しており、手書き文字も読み取れる(まだ日本語は正式リリースされていませんが、)ようになっていたりします。

 

今回は、PA4d から 最新版のRead API を実行してみますが、
Power Automate からの呼び出しは Microsoft MVP の Hiroさんがブログにまとめてくださっていますので、Power Automate ユーザーの方は是非そちらもご確認ください。
Computer Vision – Read API を Power Automate で利用する方法 – MoreBeerMorePower (hatenablog.com)

事前準備

Cognitive Service を使うためには、Azure上に環境を構築する必要があります。

 

1.Azure Portal にサインインしてください

Microsoft Azure Portal | Microsoft Azure

 

2.Computer Vision を Marketplace より追加します

3.項目を設定します。リソースグループなどは適宜作成してください。

4.作成します。

5.リソースに移動します

6.Keys and Endpoint(キーとエンドポイント)を選択します

フロー

※ 自由にご利用ください。また、これを使って業務改善できそうだ!という方は、是非twitterなどでご報告いただけると励みになります。販売を行ったり、パートナー以外がセミナー等で使用することは禁止させていただきます。

 

上記で作成したリソースから[エンドポイント]を %Endpoint% に、[キー1(またはキー2)]を %SubscriptionKey% に設定します。

ModelVersionは精度の関係で、意図的に[2021-09-30-preview]を指定しています。
[latest]に設定するとGAされたものを使用するので、実運用ではそちらの方がいいかもしれません。

また設定していないオプションもあるため、詳細はリファレンスをご確認ください。

Cognitive Services APIs Reference (microsoft.com)

 

今回は cURL を使ってAPIを実行しています。
画像データを送る時は PowerShell or cURL ですが、私は楽なのでいつも cURL を使います。
また[multipart/form-data]でも送れましたが、一部のフォーマットのデータが送れないので[application/octet-stream]で送ります。

 

読み取り結果

読み取り対象
読み取り結果

手書きもきちんと読み取れていますね。
これが無料で使えるってホントにすごいと思います。

 

PA4d は各アクションの特徴を知り、きちんとした使い方が出来れば、かなりの武器になります。
PA4d を全力で使い倒したい方は、是非ロボ研のサポートをご検討ください!




 
ロボ研では、Microsoftパートナーとして、Power Automate を利用したフローの導入・運用・開発支援、
Power AppsなどのPower Platformを活用した効率化・自動化支援、Power Automate for desktop(RPA)の勉強会の開催を行っております。


お客様の業務効率化・生産性向上に向け、最大限のご支援をさせていただきます。

ぜひご相談ください。

 

 

◆ Power Automate / Power Automate for desktop 向けサポートサイト ◆
Power Automate サポート ★一部無償でご覧いただけます★

 

◆ セミナー定期開催中◆
経営者のためのDXセミナー(仙台、山形)
事務スタッフが始める!自動化・デジタル化Webセミナー(オンライン)

 

◆ 過去の記事 ◆
ブログ記事一覧

 

◆ 書籍 ◆

Power Automate for desktop(Power Automate Desktop)や RPA に関する書籍を出版、監修しております。