Azure AI Search (旧称 "Azure Cognitive Search")を使用して個人情報が含まれるファイルを検出してみた
※2024/1/10 Azure Cognitive Searchの言葉のみAzure AI Searchへと変更しております。
そのため、画像や機能の一部は当時のままの表記となりますのでご注意ください。
個人情報など機密情報が含まれるファイルを特定したいと思ったことは無いでしょうか。
検索するにもメールアドレスやマイナンバーなど手当たり次第に検索するわけにもいかず
一つ一つファイルを開いて個人情報が含まれていないか確認するわけにもいかないと思います。
今回は「Azure AI Search 」のAI分析機能を使用してファイルに個人情報が含まれるか検出してみました。
※「Azure AI Search 」については以下でも投稿していますので是非ご覧ください。
https://www.qes.co.jp/media/PowerApps/a184
sample1.pdfには電話番号を、sample5.pdfには電話番号、Emailアドレス、マイナンバーが含まれる文書を用意しました。
※表示されている電話番号、Emailアドレス、マイナンバーはサンプルです。
また、疑わしい文字列は検索結果上ではアスタリスク(*)で表示されるように設定しました。
※設定次第で検出対象は他にも名前や組織名、運転免許番号、口座番号なども検出可能です。
最大50,000文字という制限や完璧な検出も難しいため完全に自動化というのはできないかもしれませんが、ある程度自動化されることで手作業を減らし業務改善につながるのではないかと思いました。
先のブログでご紹介したように「Azure AI Search 」はAzure上にデータが存在する必要があります。そのため既存システムで「Azure AI Search 」を使用するにはデータ移行などが必要になってきます。(ファイルであればAZCopyを用いるなど)
弊社ではデータ移行からも対応可能ですので興味を持たれましたらご支援等させていただきます。
是非、以下の「お問い合わせフォーム」から気軽にお問合せください!
※このブログで参照されている、Microsoft、Windows、Azure、SharePoint、PowerAppsその他のマイクロソフト製品およびサービスは、米国およびその他の国におけるマイクロソフトの商標または登録商標です。
そのため、画像や機能の一部は当時のままの表記となりますのでご注意ください。
個人情報など機密情報が含まれるファイルを特定したいと思ったことは無いでしょうか。
検索するにもメールアドレスやマイナンバーなど手当たり次第に検索するわけにもいかず
一つ一つファイルを開いて個人情報が含まれていないか確認するわけにもいかないと思います。
今回は「Azure AI Search 」のAI分析機能を使用してファイルに個人情報が含まれるか検出してみました。
※「Azure AI Search 」については以下でも投稿していますので是非ご覧ください。
https://www.qes.co.jp/media/PowerApps/a184
確認対象とするファイル
今回「Azure AI Search 」を使って確認対象とするファイルを5つ用意し、Azure Blob Storageにアップロードしました。sample1.pdfには電話番号を、sample5.pdfには電話番号、Emailアドレス、マイナンバーが含まれる文書を用意しました。
※表示されている電話番号、Emailアドレス、マイナンバーはサンプルです。
Azure AI Search の設定
今回「Azure AI Search 」を使って検出対象とするのは電話番号、Emailアドレス、マイナンバーの3種類としました。また、疑わしい文字列は検索結果上ではアスタリスク(*)で表示されるように設定しました。
※設定次第で検出対象は他にも名前や組織名、運転免許番号、口座番号なども検出可能です。
検出サンプルアプリ
検出内容を分かりやすく表示するために個人情報が含まれるファイルを検出するPower Appsのアプリを作成しました。
起動時は全ファイルが選択されており、「Azure AI Search 」のAI機能が個人情報が含まれていると判断した種別を表示するようにしています。
また、画面右上のトグルをオンにすることで個人情報が含まれていると判断されたファイルのみを表示するようにしました。
アプリの画面から分かる通り「Azure AI Search 」から取得した情報を確認すると目的通りsample1.pdfに「電話番号」、sample5.pdfに「電話番号」「Email」「マイナンバー」が検出できていることが分かります。
また、検索結果にファイルのテキストを表示していますが、個人情報と判断されたテキストについてはアスタリスク(*)でマスクされていることも確認できました。
まとめ
「Azure AI Search 」のAI分析機能を使用することでファイルに任意の個人情報が含まれているか検出することができました。最大50,000文字という制限や完璧な検出も難しいため完全に自動化というのはできないかもしれませんが、ある程度自動化されることで手作業を減らし業務改善につながるのではないかと思いました。
先のブログでご紹介したように「Azure AI Search 」はAzure上にデータが存在する必要があります。そのため既存システムで「Azure AI Search 」を使用するにはデータ移行などが必要になってきます。(ファイルであればAZCopyを用いるなど)
弊社ではデータ移行からも対応可能ですので興味を持たれましたらご支援等させていただきます。
是非、以下の「お問い合わせフォーム」から気軽にお問合せください!
QESでは、Microsoft製品やAWS製品に関するソリューションに取り組んでおります。
他プロダクトに関するブログも投稿しておりますので、下記のリンクから是非ご覧ください。
また、QESでは採用活動を強化しております。
ブログを読んで弊社の業務内容に興味を持っていただけましたら、採用情報にもお目通しいただければ幸いです。
https://www.qes.co.jp/recruit.html
※このブログで参照されている、Microsoft、Windows、Azure、SharePoint、PowerAppsその他のマイクロソフト製品およびサービスは、米国およびその他の国におけるマイクロソフトの商標または登録商標です。