使用 Azure AI 影片索引器自定義語言模型

發行項
07/26/2024

重要

由於已淘汰 Azure 媒體服務，移轉 Azure 影片索引器內容的期限已過。如需詳細資訊，請參閱淘汰指南。

Azure AI Video Indexer 透過與 Microsoft 自訂語音服務的整合來支援自動語音辨識。您可以上傳自適性文字來自定義語言模型。此文字來自您想要引擎用來調整其詞彙的網域。定型模型之後，會辨識在調適文字中顯示的新單字，並假設預設發音，而語言模型會學習新的可能文字序列。如需 Azure AI Video Indexer 支援的語言清單，請參閱支援的語言。

例如， “Kubernetes” （在 Azure Kubernetes 服務的內容中），是高度特定的單字。由於這對 Azure AI Video Indexer 而言是新的字，因此會將該字辨識為「社群」。將模型定型以將其辨識為 「Kubernetes」。。 在其他情況下，文字存在，但語言模型並不預期它們會出現在特定內容中。例如， 「容器服務」 不是非特定語言模型可辨識為特定單字組的 2 字序列。

有兩種方式可以自訂語言模型：

選項 1：編輯 Azure AI Video Indexer 所產生的文字記錄。藉由編輯和更正文字記錄，您可以定型語言模型，在日後提供更好的結果。
選項 2：上傳文字檔以定型語言模型。檔案可以包含單字清單，因為您希望它們出現在影片索引器文字記錄中，或是句子和段落中自然包含的相關單字。由於使用後一種方法可取得較好的結果，建議上傳檔案應包含與您的內容相關的完整句子或段落。

重要

請勿在上傳檔案中包含目前錯誤轉譯的字詞或句子（例如 「社群」），因為這樣會否定預期的影響。僅包含您想要顯示的單字 (例如「Kubernetes」)。

優化您的自定義語言模型

Azure AI Video Indexer 可根據單字組合進行學習，藉此達到最佳學習效果：

盡可能提供可能說出的句子實例。
每行一句，不要超過一句。否則系統會學習跨越句子的機率。
一句可以只有一個字，以便凸顯該字，但系統學習完整句子的效果最好。
加入新的字詞或縮寫時，盡可能提供多個在完整的句子中使用的範例，以盡量提供給系統最多的內容。
嘗試加入多個適應選項，並查看運作的效果。
避免多次重複完全相同的句子。它可能會造成相對於其餘輸入的偏差。
避免包含不常見的符號（~， # @ % &），因為它們會被捨棄。出現這些符號的句子也將予以捨棄。
避免太大量的輸入，例如數十萬個句子，因為這麼做會減弱提升的效果。

必要條件

Azure 帳戶
Azure AI 影片索引器帳戶

入口網站
API

建立語言模型

前往 Azure AI Video Indexer (英文) 網站並登入。
若要在您的帳戶中自訂模型，請選取頁面左側的 [內容模型自訂] 按鈕。
選取 [ 語言] 索引標籤。您會看到支援的語言清單。
在您想要的語言下方，選取 [新增模型]。
輸入語言模型的名稱，然後按 Enter。此步驟會建立模型，並提供將文字檔案上傳至模型的選項。
若要新增文字檔案，選取 [新增檔案]。您的檔案總管將會開啟。
瀏覽至文字檔案並加以選取。您可以將多個文字檔新增至語言模型。您也可以選取 語言模型右側的 [...] 按鈕，然後選取 [新增檔案] 來新增文本檔。
上傳文字檔案完成之後，選取綠色的 [定型] 選項。

定型程序可能需要數分鐘的時間。定型完成後， [定型] 會出現在模型旁邊。您可以從模型預覽、下載和刪除檔案。

在新影片上使用語言模型

若要在新影片上使用您的語言模型，請執行下列其中一個動作：

選取頁面頂端的 [上傳] 按鈕。
置放您的音訊或影片檔案或瀏覽您的檔案。
從 [ 影片來源語言] 下拉式清單中選取您建立的語言 模型。
選取頁面底部的 [上傳] 選項，您的新視訊將會使用您的語言模型編製索引。

使用語言模型重新編製索引

登入 Azure AI Video Indexer 首頁。
按一下影片上的 [...] 按鈕，然後選取 [重新編制索引]。
選取 [ 影片來源語言 ] 下拉式清單，然後選取您從清單中建立的語言模型。
選取 [ 重新編制索引] 按鈕，並使用您的語言模型重新編製影片索引。

編輯語言模型

您可以藉由變更語言模型的名稱、新增檔案，以及從中刪除檔案，來編輯語言模型。如果您從語言模型新增或刪除檔案，您必須選取綠色 的 [定 型] 選項來重新定型模型。

重新命名語言模型

您可以選取語言模型右側的省略號（...）按鈕，然後選取 [ 重新命名] 來變更語言模型的名稱。輸入新名稱。

新增檔案

選取 [Add file] (新增檔案)。您的檔案總管將會開啟。
瀏覽至文字檔案並加以選取。您可以將多個文字檔新增至語言模型。

您也可以選取語言模型右側的省略號（...）按鈕，然後選取 [ 新增檔案] 來新增文本檔。

刪除檔案

此動作會從語言模型完全移除檔案。

選取文字文件右側的省略號（...）按鈕。
選取 [刪除]。新的視窗隨即快顯，告知您無法復原刪除。
選取新視窗中的 [刪除] 選項。

刪除語言模型

此動作會從您的帳戶中完全移除語言模型。使用 deletedlLanguage 模型的任何影片都會保留相同的索引，直到您重新編製影片索引為止。如果您重新編製影片的索引，您可以將新的語言模型指派給影片。否則，Azure AI Video Indexer 將會使用其預設模型重新編製視訊索引。

選取語言模型右側的省略號（...）按鈕。
選取 [刪除]。新的視窗隨即快顯，告知您無法復原刪除。
選取新視窗中的 [刪除] 選項。

藉由更正文字記錄來自定義語言模型

Azure AI 影片索引器會根據使用者對影片轉譯進行的實際更正，自定義語言模型。它會擷取您在視訊轉譯中更正的所有行，並將其新增至名為 From transcript edits的文本檔。這些編輯可用來重新定型用來編製影片索引的語言模型。

也包含小工具時程表中完成的編輯。

如果您在編制此影片的索引時未指定語言模型，則此影片的所有編輯都會儲存在影片偵測到的語言內呼叫 Account adaptations 的默認語言模型。

如果已對同一行進行多個編輯，則只會使用最後一個版本更正的行來更新語言模型。

注意

文字更正只會用於自訂。不包含未涉及實際字組 (例如，標點符號或空格) 的更正。

從文檔庫選取您想要編輯的影片。
選取 [時間軸] 索引標籤。
選取鉛筆圖示以編輯轉譯的文字記錄。
您會看到文字記錄更正顯示在 Con 帳篷模式 l 自定義頁面的 [語言] 索引標籤中。若要查看每個語言模型的「文字記錄編輯來源」檔案，請選取該檔案加以開啟。

建立語言模型

建立語言模型要求會為指定的帳戶建立新的自定義語言模型。您可以使用此要求來上傳語言模型的檔案。或者，您可以在這裡建立語言模型，稍後藉由更新語言模型來上傳模型的檔案。

除了提供必要參數的值之外，您還必須使用 FormData 上傳本文中的檔案。有兩種方式可定義這項工作的密鑰組：

索引鍵是檔案名稱，而值則是 txt 檔案。
索引鍵是檔案名稱，而值則是 txt 檔案的 URL。

注意

您仍然必須使用模型已啟用的檔案為模型定型，以了解其檔案的內容。

範例回應

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

定型語言模型

定型語言模型要求會使用語言模型中上傳和啟用檔案的內容，為指定的帳戶定型自定義語言模型。

注意

您必須先建立語言模型並上傳其檔案。您可以在建立語言模型或更新語言模型時上傳檔案。

範例回應

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": false,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

id是用來區分語言模型的唯一標識符，同時languageModelId用於上傳影片以編製索引和重新編製影片要求索引（也稱為 linguisticModelId Azure AI 影片索引器上傳/重新編製索引要求）。

刪除語言模型

刪除語言模型要求會從指定的帳戶中刪除自定義語言模型。使用所刪除語言模型的任何影片都會保留相同的索引，直到您重新編製影片索引為止。如果您重新編製影片索引，可以將新的語言模型指派給該影片。否則，Azure AI Video Indexer 會使用其預設模型重新編製影片索引。

範例回應

成功刪除語言模型時，不會傳回內容。

更新語言模型

更新語言模型要求會更新指定帳戶中的自定義語言人員模型。

注意

您必須已經建立語言模型。您可以使用這個呼叫啟用或停用模式下的所有檔案、更新語言模型的名稱，以及上傳要新增至語言模型的檔案。

若要上傳要新增至語言模型的檔案，除了提供上述必要參數的值之外，還必須使用 FormData 上傳本文中的檔案。這個工作的做法有二種：

索引鍵是檔案名稱，而值則是 txt 檔案。
索引鍵是檔案名稱，而值則是 txt 檔案的 URL。

範例回應

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

使用回應中所傳回檔案的 id 來下載檔案的內容。

從語言模型更新檔案

更新語言模型檔案要求可讓您在指定帳戶的自定義語言模型中更新檔案的名稱和enable狀態。

範例回應

{
  "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
  "name": "RenamedFile",
  "enable": false,
  "creator": "John Doe",
  "creationTime": "2018-04-27T20:10:10.5233333"
}

使用回應中所傳回檔案的 id 來下載檔案的內容。

取得特定語言模型

取得語言模型要求會傳回指定帳戶中指定語言模型的資訊，例如語言和語言模型中的檔案。

範例回應

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

使用回應中所傳回檔案的 id 來下載檔案的內容。

取得所有語言模型

取得語言模型要求會傳回清單中指定帳戶中的所有自定義語言模型。

範例回應

[
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
        "name": "TestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000000",
        "files": [
        {
            "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
            "name": "hellofile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.6733333"
        },
        {
            "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
            "name": "worldfile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.86"
        }
        ]
    },
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a892",
        "name": "AnotherTestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000001",
        "files": []
    }
]

從語言模型刪除檔案

刪除語言模型檔案要求會從指定帳戶中的指定語言模型刪除指定的檔案。

範例回應

成功從語言模型刪除檔案時，不會傳回內容。

從語言模型取得檔案的中繼資料

取得語言模型檔案數據要求會從您帳戶中所選語言模型傳回指定檔案的內容和元數據。

範例回應

{
    "content": "hello\r\nworld",
    "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
    "name": "Hello",
    "enable": true,
    "creator": "John Doe",
    "creationTime": "2018-04-27T20:10:10.5233333"
}

注意

此範例檔案的內容是兩行分隔字組的「你好」和「world」。

從語言模型下載檔案

下載語言模型檔案內容要求會從指定帳戶中的指定語言模型下載包含指定檔案內容的文本檔。此文字檔應符合原本上傳之文字檔的內容。

範例回應

回應會是以 JSON 格式，下載具有檔案內容的文字檔。

共用方式為

使用 Azure AI 影片索引器自定義語言模型

優化您的自定義語言模型

必要條件

建立語言模型

在新影片上使用語言模型

使用語言模型重新編製索引

編輯語言模型

重新命名語言模型

新增檔案

刪除檔案

刪除語言模型

藉由更正文字記錄來自定義語言模型

建立語言模型

範例回應

定型語言模型

範例回應

刪除語言模型

範例回應

更新語言模型

範例回應

從語言模型更新檔案

範例回應

取得特定語言模型

範例回應

取得所有語言模型

範例回應

從語言模型刪除檔案

範例回應

從語言模型取得檔案的中繼資料

範例回應

從語言模型下載檔案

範例回應

意見反應

其他資源