共用方式為


Azure AI Video Indexer 概觀

警告

在過去的一年裡,Azure AI 影片索引器(VI)宣佈因淘汰而取消對 Azure 媒體服務 (AMS) 的相依性。 已宣佈功能調整變更 ,並提供 移轉指南

完成移轉的最後期限是 2024 年 6 月 30 日。 VI 已延長更新/移轉期限,讓您可以更新VI帳戶,並選擇加入AMS VI資產移轉至2024年7月15日。 若要使用AMS VI資產移轉,您也必須將AMS帳戶延伸至7月。 流覽至 Azure 入口網站 中的AMS帳戶,然後選取 [按兩下這裡以擴充]。

不過,在 6 月 30 日之後,如果您尚未更新 VI 帳戶,您將無法編製新影片的索引,也無法播放尚未移轉的任何影片。 如果您在 6 月 30 日之後更新您的帳戶,您可以立即繼續編製索引,但 您將無法在帳戶更新之前播放影片,直到透過 AMS VI 移轉進行移轉。

Azure AI 影片索引器是雲端應用程式,是 Azure AI 服務的一部分,建置在 Azure AI 服務上(例如臉部、翻譯工具、Azure AI 視覺和語音)。 其可讓您使用 Azure AI Video Indexer 的影片與音訊模型,從影片中擷取見解。

Azure AI Video Indexer 會執行 30 個以上的 AI 模型來分析影片和音訊內容,並產生豐富的深入解析。 以下是 Azure AI Video Indexer 在背景中執行的音訊和影片分析圖解:

Azure AI 影片索引器流程的圖表。

若要開始使用 Azure AI Video Indexer 來擷取深入解析,請參閱如何開始使用一節。

Azure AI Video Indexer 有何用途?

Azure AI 影片索引器深入解析可以套用至許多案例:

  • 深入搜尋:使用從影片中擷取的深入解析來增強影片庫的搜尋體驗。 例如,為說出口的話或臉部編製索引,以啟用找出影片中特定片段的搜尋體驗,例如影片中的某人說了某個字,或兩個人一起出現在影片中的時候。 以這類影片深入解析為基礎的搜尋服務適用於新聞機構、教育機構、廣播公司、娛樂事業擁有者、企業 LOB 應用程式,以及通常有影片庫讓使用者搜尋的任何產業。
  • 建立內容:根據 Azure AI Video Indexer 從您的內容中擷取的深入解析,建立預告、精華片段、社交媒體內容或新聞剪輯。 人員和標籤外觀的主要畫面格、場景標記和時間戳記,都可讓建立流程更為順暢且更容易,讓您在建立內容時可輕鬆取得所需的影片部分。
  • 協助工具:無論您是要讓行動不便人士能夠使用您的內容,還是要將您的內容使用不同語言散發到不同區域,都可以使用 Azure AI Video Indexer 所提供的多種語言轉譯和翻譯。
  • 創造營收:Azure AI Video Indexer 可協助提高影片的價值。 例如,依賴廣告收益的產業 (新聞媒體、社交媒體等) 可以使用所擷取的深入解析作為廣告伺服器的額外訊號,來提供更為相關的廣告。
  • 內容審核:使用文字和視覺的內容審核模型,讓您的使用者不會收到不適當的內容,並驗證您發佈的內容是否符合組織的價值觀。 您可以自動封鎖特定影片,或針對該內容向使用者發出警示。
  • 推薦:影片深入解析可藉由向使用者傳送相關影片的精華片段,來提升使用者參與度。 藉由使用額外的中繼資料標記每個影片,您可以向使用者推薦最相關的影片,並傳送符合他們需求的影片精華部分。

影片/音訊 AI 功能

下列清單顯示您可以使用的 Azure AI Video Indexer 影片和音訊模型,從影片/音訊檔案中擷取的深入解析。

除非另有指定,否則模型已正式推出。

影片模型

  • 臉部偵測:偵測及分組影片中出現的臉部。

  • 名人識別:識別 1 百萬個以上的名人,例如全球各地的世界級領導者、演員、藝人、運動員、研究人員、商人和技術領導者等。 您也可以在各種網站 (IMDB、維基百科等等) 上找到這些名人的相關資料。

  • 以帳戶為基礎的臉部辨識:可針對特定帳戶訓練模型。 接著,其可根據已定型的模型來辨識影片中的人臉。 如需詳細資訊,請參閱從 Azure AI Video Indexer 網站自訂人員模型使用 Azure AI Video Indexer API 來自訂人員模型

  • 臉部的縮圖擷取:識別每個臉部群組中所擷取到的最佳面貌 (根據品質、大小和正面位置),並將其擷取為影像資產。

  • 光學字元辨識 (OCR):擷取影像 (例如圖片、街道標誌和媒體檔案中的產品) 中的文字,以建立深入解析。

  • 視覺內容審核:偵測成人和/或不雅的視覺效果。

  • 標籤識別:識別顯示的視覺物件和動作。

  • 場景分割:根據視覺提示來判斷影片中的場景何時變更。場景會描述單一事件,並且會由一系列與語義相關的連續鏡頭組成。

  • 鏡頭分割:根據視覺提示來判斷影片中的鏡頭何時變更。鏡頭是透過相同電影攝影機所拍攝的一系列畫面格。 如需詳細資訊,請參閱場景、鏡頭和主要畫面格

  • 黑色畫面偵測:識別影片中出現的黑色畫面。

  • 主要畫面格擷取:偵測影片中的穩定主要畫面格。

  • 滾動演職員表:識別電視節目和電影結束時的滾動演職員表開頭與結尾。

  • 編輯偵測鏡頭類型:根據鏡頭的類型 (例如,寬鏡頭、中鏡頭、特寫、極度特寫、雙人鏡頭、多人、戶外和室內等等) 來為鏡頭加上標籤。 如需詳細資訊,請參閱編輯鏡頭類型偵測

  • 觀察到的人員追蹤 (預覽):偵測影片中觀察到的人員,並提供資訊,例如人員在影片畫面 (使用週框方塊) 的位置,以及人員出現時的確切時間戳記 (開始、結束) 和信賴度。 如需詳細資訊,請參閱追蹤影片中觀察到的人員

    • 偵測到的人員服裝:偵測影片中出現的人員服裝類型,並提供資訊,例如長短袖、長短褲和裙子或洋裝。 偵測到的服裝會與穿著的人員相關聯,以及提供確切的時間戳記 (開始、結束) 與偵測的信賴度等級。 如需相關資訊,請參閱偵測到的服裝
    • 精選服裝 (預覽):擷取出現在影片中的精選服裝影像。 您可以使用精選服裝深入解析來改善您的目標廣告。 如需精選服裝影像的排名方式以及取得此深入解析的詳細資訊,請參閱精選服裝
  • 比對人員 (預覽):以對應已偵測臉部比對影片中所觀察到的人員。 觀察人員與臉部之間的比對包含信賴度等級。

  • 物件偵測 偵測也會追蹤的唯一物件,以便在它們返回畫面時辨識它們。 請參閱 Azure AI 影片索引器對象偵測

  • Slate 偵測 (預覽):使用進階索引選項為影片編製索引時,識別下列電影後影片深入解析:

    • 具有中繼資料擷取的場記板偵測。
    • 數位模式偵測,包含標準彩色條碼。
    • 無文字靜態圖像偵測,包括場次比對。

    如需詳細資訊,請參閱靜態圖像偵測

  • 文字標誌偵測 (預覽):使用 Azure AI Video Indexer OCR 比對特定預先定義的文字。 例如,如果使用者建立文字標誌:「Microsoft」,則系統會將字詞「Microsoft」的不同外觀偵測為「Microsoft」標誌。 如需詳細資訊,請參閱偵測文字標誌

音訊模型

  • 音訊轉譯:將語音轉換為超過 50 種語言的文字,並允許擴充。 如需詳細資訊,請參閱Azure AI Video Indexer 語言支援

  • 自動語言偵測:識別主要口說語言。 如需詳細資訊,請參閱Azure AI Video Indexer 語言支援。 如果沒有把握能識別語言,Azure AI Video Indexer 就會假設該口說語言為英文。 如需詳細資訊,請參閱語言識別模型

  • 多語言語音識別和轉譯:識別音訊中不同區段的口說語言。 其會傳送所要轉譯媒體檔案的每個區段,然後將轉譯結果回頭合併為一個整合起來的轉譯。 如需詳細資訊,請參閱自動識別並轉譯多語言內容

  • 隱藏式輔助字幕:建立三種格式的隱藏式輔助字幕:VTT、TTML、SRT。

  • 雙通道處理:自動偵測分離的文字記錄並合併到單一時間軸。

  • 減少雜訊:清除電話音頻或錄音雜訊 (視 Skype 的篩選條件而定)。

  • 自訂文字記錄 (CRIS):訓練自訂語音轉換文字模型,以建立產業特有的文字記錄。 如需詳細資訊,請參閱 自定義語言模型

  • 說話者列舉:對應和了解哪一位說話者在何時說了哪些字組。 您可以在單一音訊檔案中偵測到十六個喇叭。

  • 說話者統計資料:提供說話者語音比率的統計資料。

  • 文字內容審核:偵測音訊文字記錄中的明確文字。

  • 文字型情緒偵測:透過文字記錄分析偵測到的情緒,例如快樂、悲傷、憤怒和恐懼。

  • 翻譯:為音訊文字記錄建立多種不同語言的翻譯。 如需詳細資訊,請參閱Azure AI Video Indexer 語言支援

  • 音訊效果偵測 (預覽):在內容的非語音區段中偵測下列音訊效果:警示或警報聲、狗吠、人群反應 (歡呼、鼓掌和噓聲)、槍聲或爆炸、歡笑聲、打破玻璃和沉默。

    偵測到的原音事件位於隱藏式輔助字幕檔案中。 您可以從 Azure AI Video Indexer 網站下載該檔案。 如需詳細資訊,請參閱音訊效果偵測

    注意

    只有在上傳預設中上傳檔案時選擇 [進階音訊分析] 時,才能使用完整的事件集。 根據預設,只會偵測到沉默。

音訊與影片模型 (多軌剪輯)

依單軌進行編製索引時,就會提供那些模型的部分結果。

  • 關鍵字擷取:擷取語音和視覺文字中的關鍵字。
  • 具名實體擷取:透過自然語言處理 (NLP),從語音和視覺文字中擷取品牌、位置和人員。
  • 主題推斷:根據各種關鍵字擷取主題 (亦即關鍵字「證券交易所」、「華爾街」將會產生主題「經濟」)。 此模型使用三種不同的本體 (IPTCWikipedia 和影片索引子階層式主題本體)。 此模型使用轉譯 (口語)、OCR 內容 (視覺文字),以及使用影片索引子臉部辨識模型在影片中辨識的名人。
  • 成品:為每個模型擷取一組豐富的「下一個詳細資料層級」成品。
  • 情感分析:識別語音和視覺文字中的正面、負面及中性情緒。

如何開始使用 Azure AI Video Indexer?

了解如何開始使用 Azure AI Video Indexer

完成設定後,請開始使用深入解析,並參閱其他說明指南

合規性、隱私權和安全性

注意

Microsoft 於 2020 年 6 月 11 日宣佈,除非已制訂立基於人權的健全監管法規,否則不會將臉部辨識技術銷銷售給美國的警察部門。 因此,如果客戶隸屬於美國警察部門,或允許美國警察部門使用此類服務,則客戶可能無法使用臉部識別功能或 Azure AI 服務中納入的功能 (例如「臉部索引器」或「影片索引器」)。

注意

臉部辨識、自訂和名人辨識功能的存取限制是根據資格和使用準則,以支援我們的「負責任的 AI 準則」。 臉部識別、自訂和名人辨識功能僅適用於 Microsoft 受控的客戶和合作夥伴。 請使用臉部辨識受理表單以申請存取。

重要提醒是,在使用 Azure AI Video Indexer 時,您必須遵守所有適用的法律,且您不得以違反他人權利或可能會對他人有害的方式使用 Azure AI Video Indexer 或任何 Azure 服務。

將任何影片/影像上傳至 Azure AI Video Indexer 之前,您必須擁有使用該影片/影像的所有適當權限,包括依據法律要求須徵得影片/影像中的個人 (如果有的話) 所有必要的同意,方可在 Azure AI Video Indexer 和 Azure 中使用、處理和儲存其資料。 有些司法管轄區可能會對特定資料類別 (例如生物識別資料) 的收集、線上處理和儲存施加特殊的法律要求。 使用 Azure AI Video Indexer 和 Azure 來處理及儲存任何受到特殊法律要求約束的資料之前,您必須確定已符合您可能適用的任何此類法律要求。

若要了解 Azure AI Video Indexer 中的合規性、隱私權和安全性,請造訪 Microsoft 信任中心。 如需 Microsoft 的隱私權義務、資料處理和保留準則 (包括如何刪除您的資料),請參閱 Microsoft 的隱私權聲明線上服務條款 ("OST") 和資料處理增補 ("DPA")。 一旦使用 Azure AI Video Indexer,即表示您同意受到 OST、DPA 和隱私權聲明的規範。