Azure Searchのフィールドマッピングでmetadata_storage_pathから生URLを取り出す方法

5856 ワード

Azure AzureSearch Postman REST-API Azure テキストリンク

はじめに

Azure BLOBストレージにpdfファイルなどをアップロードし、Azure Searchでインデクシングを行うと、ファイルの全文検索を行うことができます。これを応用して、ファイルの検索やファイルのダウンロードを行えるようなWebサイトの構築も可能です。サービス作成にあたり、筆者が一番はまってしまった所が、metadata_storage_path(Blobのリンクがbase64で変換されたデータ)の加工です。これを行わないと、生のURLを取り出せず、HTMLでハイパーリンクを設置することができません。コード側ではなく、Azure Search上でどうにか加工できないかと思い、トライした結果がこちらになります。MS公式ドキュメントに方法は書いてありますが、少し分かりづらいので、本記事にてまとめることにしました。

(公式: https://docs.microsoft.com/ja-jp/azure/search/search-indexer-field-mappings)

Azure SearchとStorage Account(BLOB)のデプロイ

こちらの手順については、省略させて頂きます。本記事では、既にいくつかのファイルがインデクシングされ、フィールドが構成された状態であることを想定しています。

metadata_storage_pathの初期状態↓

フィールドの追加

生URLを格納するためのフィールドをAzure Searchで新たに追加してください。今回は例として「original_path」という名前のフィールドを「Retrievable」で作成しました。

フィールドマッピングの設定

REST APIを用いて、Azure Searchで作成されたインデックスのフィールドマッピングの設定を行います。今回APIを叩くツールとして、Postmanを使用します。

●初めに現在のフィールドマッピングの情報をGETしてきます。取得できた内容は全てメモ帳等にコピーしておいてください。

GET https://[search service name].search.windows.net/indexers/[my indexer name]?api-version=[api-version]
Content-Type: application/json
api-key: [admin key]

●次に、decodeを行います。先ほどGETしたJSONを元に、以下のbodyをPUTしてください(伏字のところ等は適宜変えてください)。

{
"@odata.context": "https://XXXXX.search.windows.net/$metadata#indexers/$entity",
    "@odata.etag": "\"0x8D60D553BE516BF\"",
    "name": "YYYYY",
    "description": "",
    "dataSourceName": "ZZZZZ",
    "targetIndexName": "WWWWW",
    "schedule": null,
    "parameters": {
        "batchSize": null,
        "maxFailedItems": 0,
        "maxFailedItemsPerBatch": 0,
        "base64EncodeKeys": false,
        "configuration": {
            "dataToExtract": "contentAndMetadata"
        }
    },
   "fieldMappings" : [
   {
    "sourceFieldName" : "metadata_storage_path",
    "targetFieldName" : "metadata_storage_path",
    "mappingFunction" : { "name" : "base64Decode", "parameters" : { "useHttpServerUtilityUrlTokenDecode" : false } }
   }],

    "disabled": null
}

●次に、フィールドをフォークします。GETしたJSONを元に、以下のbodyをPUTしてください(伏字のところ等は適宜変えてください)。

{
"@odata.context": "https://XXXXX.search.windows.net/$metadata#indexers/$entity",
    "@odata.etag": "\"0x8D60D553BE516BF\"",
    "name": "YYYYY",
    "description": "",
    "dataSourceName": "ZZZZZ",
    "targetIndexName": "WWWWW",
    "schedule": null,
    "parameters": {
        "batchSize": null,
        "maxFailedItems": 0,
        "maxFailedItemsPerBatch": 0,
        "base64EncodeKeys": false,
        "configuration": {
            "dataToExtract": "contentAndMetadata"
        }
    },
   "fieldMappings" : [
    { "sourceFieldName" : "metadata_storage_path", "mappingFunction" : { "name" : "base64Encode" } },
    { "sourceFieldName" : "metadata_storage_path", "targetFieldName" : "original_path" }
    ],

    "disabled": null
}

●更新されたフィールドマッピングの情報をGETしてみると、以下のようになっているかと思います。

{
"@odata.context": "https://XXXXX.search.windows.net/$metadata#indexers/$entity",
    "@odata.etag": "\"0x8D60E33753011E2\"",
    "name": "YYYYY",
    "description": "",
    "dataSourceName": "ZZZZZ",
    "targetIndexName": "WWWWW",
    "schedule": null,
    "parameters": {
        "batchSize": null,
        "maxFailedItems": 0,
        "maxFailedItemsPerBatch": 0,
        "base64EncodeKeys": false,
        "configuration": {
            "dataToExtract": "contentAndMetadata"
        }
    },
    "fieldMappings": [
        {
            "sourceFieldName": "metadata_storage_path",
            "targetFieldName": "metadata_storage_path",
            "mappingFunction": {
                "name": "base64Encode",
                "parameters": null
            }
        },
        {
            "sourceFieldName": "metadata_storage_path",
            "targetFieldName": "original_path",
            "mappingFunction": null
        }
    ],
    "disabled": null
}

動作確認

フィールドマッピングの更新後、BLOB Storageにファイルをアップロードし、Azure Searchでインデクシングを行い、BlobのURLが取り出せていることを確認してみてください。

さいごに

本記事では、base64で変換されたデータであるmetadata_storage_pathの変換方法についてご紹介しました。登録したフィールドマッピングが反映されるのは、インデクシング時なので、新規にインデックスを作成するときなどは適用できない方法になっています。別の方法をご存知の方がいましたら、是非ともご教授頂けると幸いです。

Author And Source

この問題について(Azure Searchのフィールドマッピングでmetadata_storage_pathから生URLを取り出す方法), 我々は、より多くの情報をここで見つけました https://qiita.com/taminami/items/1cfd9d3992c2096c41b0

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .