PDFからテキストを抽出し、業務の効率化を図りたいと考える人は多いでしょう。
しかし、Power Automate Desktop(パワーオートメイト)でOCRを使ってテキストを抽出しようとした際、何度試しても空白のままになるという問題が発生することがあります。
この原因は何でしょうか?
Power Automate DesktopのOCR精度が低い
結論から言うと、Power Automate Desktopの【PDFからテキスト抽出】アクションによるOCR機能の精度が低いためです。
このアクションはPDFに含まれるテキストをOCR処理して抽出しますが、以下のような制限があります。
-
PDFが画像形式の場合、ほぼ認識しない
-
画像のように文字が埋め込まれている場合、適切にOCRが機能せず、テキストを取得できません。
-
-
選択可能なテキストのみ認識可能
-
ExcelやWordなどから作成されたPDFや、PDF上で編集可能なテキストが含まれている場合のみ、正しくテキストを抽出できます。
-
そのため、多くのユーザーがOCRを使いたいと考えている「スキャンした領収書」「画像として埋め込まれた請求書」などのデータでは、Power Automateの標準OCR機能ではうまく処理できないのです。
解決策:外部OCRサービスを活用する
①無料OCRサイトを活用する
手軽にOCRを利用する方法として、無料のOCRサイトを活用するのも有効です。
インターネット上には高精度なOCRサービスが多数存在し、PDFをアップロードするだけでテキストを取得できます。
例えば、以下のような無料OCRサイトがあります。
こうしたOCRサイトを利用すれば、Power Automate DesktopのOCR機能を使わずとも、簡単にテキストを抽出できます。
※無料のOCRサイトとしてGoogleドキュメントのOCR機能も利用できますが、手順が多く煩雑なため、RPAでの活用にはあまり向いていないかもしれません(個人の感想)。そのため、素直に無料のOCRサイトを活用することをおすすめします。
②Power AutomateのAI Builder(有料)を使う(法人向け)
Power Automateには、より高度なOCR機能を提供するAI Builderが搭載されています。AI BuilderはMicrosoftが提供するAI機能の一部であり、標準の「PDFからテキスト抽出」アクションとは異なり、AIを活用して高精度のテキスト認識を行います。スキャン画像内の文字解析にも対応しており、一般的な無料OCRよりも圧倒的に精度が高く、表や手書き文字にも対応しています。
▼OCR後のデータをPower Automate Desktopで活用する
OCRサイトで変換したPDFやテキストデータをPower Automate Desktopに取り込むことで、業務自動化に活用できます。
-
OCRサイトでPDFのテキストを抽出
-
抽出したテキストを保存、もしくは、テキスト抽出されたpdfをPower Automate DesktopのPDFからテキストを抽出アクションで取り込む
-
必要なデータを処理・保存
この方法なら、Power Automate DesktopのOCR機能に頼ることなく、正確なテキストを抽出して業務に活用できます。
結論:「Power Automateだけにこだわらず、無料でできる手を使おう!」
Power Automate DesktopのOCR機能には限界があり、特に画像として埋め込まれたPDFの処理には向いていません。そのため、
といった方法を組み合わせることで、より効率的にPDFからテキストを抽出し、業務に活用できます。
▼ OCRサイトにPDFファイルをアップロードする方法はこちら
▼ 無料OCRサイトの比較記事はこちら