記事公開日 2022/08/02

最終更新日2025/04/11

Azure Form Recognizerを試してみた

こんにちは！システムソリューション営業本部の川原です。

私が所属している部隊では、Power Platformに力を入れており、お問い合わせをいただくことも増えてきております。

先日、おかげさまで日本マイクロソフト社が主催するMicrosoft Japan Partner of the Year 2022にて「PowerAppsアワード」を受賞することができました。
Power Platform関連でお困りごとがありましたら、安心してお問い合わせいただければと思います！

Power Platformに興味があり、一緒に盛り上げていきたいと思うエンジニアの皆さまも、エンジニア募集を強化しておりますので面談のお問い合わせをいただけましたら嬉しいです！

さて、本題ですが...

ここ最近Power Platformと合わせて、「OCR」についてお問い合わせいただくことが増えてきました。
Azureサービスは同じMicrosoftのクラウド上のサービスということで、Power Platformとの連携も容易です。
その中で、OCRを使うことができる Azure Form recognizer を試してみた 概要を本ブログで紹介させていただきます。

OCRとは

OCRはOptical Character Recognitionの略語で、日本語では光学文字認識と訳される技術のことです。
紙や画像に書いてある文字をテキストデータとして抽出できるため、身近な例ではパスポートの読み取りなどに活用されています。ペーパーレスを進める企業にも注目されていますね。

Azure Form Recognizer概要

Azure Form RecognizerはOCRを扱うことができるAzureのサービスです。

ただのOCRサービスと違う点は、Azureの機械学習を使用して、通常のOCRでは検出できないような情報を検索、取得できるところにあると思います。

最初から、ズバッと取り出したいテキストデータが抽出できたら良いですが、そう上手くいかない場合に、機械学習を活用してトレーニングしていくと、最初は上手く取得できなかったテキストデータが抽出できるようになっていくというイメージで良いと思います。

海外からくるPDFの請求書のテキストデータを抽出して、DB(データベース)に格納していきたい。人間がみると、一定の法則で取り出したいデータが現れるが、既存のOCRシステムでは上手く認識してくれない等の悩みを解決してくれるかもしれませんね！

後は使用に関する細かい点ですが、Form Recognizer を使用するには、Azure サブスクリプション (無料で作成できる) と Form Recognizer リソースがまず必要となります。

リソースにはエンドポイントとキーが用意されており、それらによって、REST または適切なソフトウェア開発キット (SDK) を使用して Form Recognizer サービスにアクセスできるので、既存のWebシステムやPower Appsのアプリに組み込むことが容易となっております。

より詳しい情報は公式のページ及びそのページから飛べるリンク先を参照いただければと思います。

Form Recognizer – 自動データ処理システム | Microsoft Azure

Azure Form Recognizerの検証環境

Microsoft公式のクイックスタートを参考にREST APIで検証できる環境を構築します。

(内容がクイックスタートと重複してしまうため、構築手順は割愛させていただきます。)

WordからPDF化したものを読み取ってみる

まずは、以下の画像のようにWordで弊社の住所を入力しPDF化したものを読み取ってみたいと思います。

Form Recognizerから参照できる場所に読み取るデータを置く必要があります。
今回はAzure Blob Storageで匿名読み取りアクセスを有効にしたコンテナーに配置して検証します。

それでは、いざ！実行してみます。

■ドキュメントの分析 (POST 要求)

分析結果取得のためのURLが応答で返ってきていることが分かります。

■分析結果の取得 (GET 要求)

しっかりとテキストデータを抽出できていますね。
文字ごと、単語ごとに抽出した座標データも一緒に取得できています。

「AzureでForm Recognizerのリソースを作成」、「読み取るデータを配置」、「REST APIを実行」
の3手順で簡単にOCRを試せました。

Webのスクリーンショット画像を読み取ってみる

次は弊社HPにある住所ページのスクリーンショットを撮って、その画像ファイルで試してみたいと思います。

住所の箇所だけスクリーンショット

画像ファイルはPDF検証時と同じAzure Blob Storageに配置して、いざ！実行してみます。(今回は結果のみ記載)

PDFと同様にテキストデータを抽出できていますね。
文字ごと、単語ごとに抽出した座標データも一緒に取得できています。

WordからPDF化した時と変わらない精度で抽出できています。凄い..

手書き文字をスキャンしたPDFを読み取ってみる

最後は手書きの住所をスキャンしたPDFでためしてみたいと思います。

●手書きの住所をスキャンしたPDF

Azure Blob Storageに配置して、いざ！実行してみます。(今回も結果のみ記載)

なんと！手書きでもちゃんとテキストデータを抽出できていますね。
文字ごと、単語ごとに抽出した座標データも一緒に取得できています。
(私の字が綺麗ってことですね!!......イタイイタイ..どこからか石が..)

最後に予期しない横棒「ー」が検出されていますが、スキャナー側のゴミか何かも文字として認識したみたいです。
このあたりはOCRというよりは自宅のスキャナーを綺麗にしなさいという話ですね、すみません。

この検証で手書きでもしっかりと認識してくれることが分かりました！兜を認識してくれたのが何気に嬉しい。

感想

今回はAzure Form Recognizerを試してみましたが、非常に簡単でプログラムを書くことなく、素早く検証することができました。
さらに、現時点での情報になりますが、1日500ページまでは無料で利用することができます！凄いですね～太っ腹。
まずは機械学習を意識することなく高精度のOCRを使えることも分かったことが収穫です。