一文搞懂華為ML Kit數字人,超簡單集成


一、數字人介紹

虛擬數字人是綜合多模態AI能力,結合圖像視覺、情緒生成、語音克隆、語義理解等多種AI技術,廣泛應用於媒體新聞主播、金融客服、虛擬游戲等眾多場景。

數字人在行業中的應用:

在這里插入圖片描述

二、HMS ML Kit數字人

HMS ML Kit數字人是依托華為公司強大的圖像處理、語音合成、聲音克隆、語義理解等AI核心技術,全新推出的綜合多模態AI能力。面向教育、新聞、多媒體制作企業,提供高質量、低成本、創新體驗的內容創作模式。對比其他廠商數字人,HMS ML Kit數字人的優勢明顯:

支持超高清4K影院級效果

  • 支持大屏展示,全身細節紋理均達到同等清晰度

  • 生成與真實背景圖像無縫融合,高清分辨率下無融合痕跡

  • 嘴唇細節、口紅反光分明、紋理清晰

  • 牙齒清晰可見,齒縫紋理清晰真實

合成效果逼真度

  • 真實還原牙齒(非貼圖)、嘴唇、甚至口紅反光細節。

  • 真實還原面部光照、對比度、陰影、酒窩等細節。

  • 嘴部皮膚生成紋理與真實紋理無縫對接。

  • 相對3D主播,無動畫生硬感。

在這里插入圖片描述

三、HMS ML Kit數字人生成數字人視頻展示

在這里插入圖片描述

從上圖中我們可以看到HMS ML Kit數字人超高清的真人視頻效果,不僅口齒清晰,ML Kit數字人還對一些細節的掌控更加優秀:嘴唇細節、口紅反光細節、更加真實的面部發音以及細致的面部光照效果。

四、HMS ML Kit數字人服務集成

4.1 服務集成過程

4.1.1 提交需要生成的文本信息

調用【定制文本轉虛擬數字人視頻接口】,將一些配置(config)和需要轉化的文本(data)通過該接口傳輸至后端進行處理:首先,要對傳輸進來的data的文本字符長度進行校驗,中文文本最大字符長度不得超過1000,英文文本單個字符長度不得超過3000,英文文本單詞長度不得超過3000,對於傳輸進來的config做非空校驗,然后將config和data提交,將文本文字轉化為音頻文件。

4.1.2 異步執行的定時任務

會有一個異步執行的定時任務處理提交的數據,調用TTS提供的算法,將文本文件轉化為視頻文件,並且將上一步得到的音頻文件與視頻文件合成起來。

4.1.3 查詢文本是否轉化成功

調用【文本轉虛擬數字人視頻結果查詢接口】,實時查詢異步執行的文本轉視頻是否已經執行完畢;如果執行完畢,將會返回一個生成視頻的鏈接。

4.1.4 根據視頻鏈接訪問視頻文件

根據【文本轉虛擬數字人視頻結果查詢接口】所返回的視頻鏈接,訪問生成的視頻文件。

4.2 服務集成的主要接口

4.2.1 定制文本轉虛擬數字人視頻接口

URL
http://10.33.219.58:8888/v1/vup/text2vedio/submit

請求參數

在這里插入圖片描述

主要功能
輸入文本轉換成虛擬數字人視頻接口,此接口為異步接口,當前版本轉換需要一定時間,采用離線方法,最終轉換結果需要通過【文本轉虛擬數字人視頻結果查詢接口】查詢。如果提交的文本已經合成過,直接返回播放URL。

主要邏輯
根據前端頁面所傳輸的需要合成的文本數據data,根據config所提供的一些配置,將文本文字轉化為音頻文件。異步執行多線程,根據所提供的算法模型生成合乎發音的視頻文件,然后將視頻文件與音頻文件合成起來,生成所需的數字人視頻。如果提交的文本已經合成過,直接返回播放URL。

4.2.2 文本轉虛擬數字人視頻結果查詢接口

URL
http://10.33.219.58:8888/v1/vup/text2vedio/query

請求參數

在這里插入圖片描述

主要功能

根據提交文本ID批量查詢轉換狀態。

主要邏輯
根據前端頁面所傳輸的合成的文本數據ID列表,即textIds字段,查詢所得到的視頻文件合成的任務狀態,將得到的狀態結果存在集合,作為返回參數,插入到返回的請求當中。如果請求的文本已合成過,直接返回播放URL。

4.2.3文本轉虛擬數字人視頻批量下線接口

URL
http://10.33.219.58:8888/v1/vup/text2vedio/offline

請求參數

在這里插入圖片描述

主要功能
根據提交文本ID批量下線。

主要邏輯
根據前端頁面所傳輸的合成的文本數據ID數組,即textIds字段,對該數組內所有ID對應的視頻進行下線設置,改變其狀態為下線狀態,同時刪除視頻文件,被下線的視頻無法播放和觀看。

4.3 HMS ML Kit數字人服務實現的主要功能

HMS ML Kit數字人服務的功能非常強大:

  1. 雙語發音:由於目前系統支持中文發音和英文發音,可以傳輸中文文本和英文文本作為發音數據。
  2. 多個虛擬主播形象:支持不同虛擬主播發音,目前系統里配置了4名虛擬主播,分別為:中文女士發音,上海日報,英文女士發音,英文男士發音。
  3. 畫中畫視頻播放:除了對虛擬主播的設置以外,視頻播放支持畫中畫即小窗播放視頻,在畫中畫模式播放視頻時,視頻窗口隨屏幕移動,可以一邊查看文本,一邊播放視頻,視頻窗口還可以拖拽到任意位置,以至於不遮擋文本位置。
  4. 可調節的語速,音量,音調:可以滿足不同需求的發音速度,發音音量以及發音音調。
  5. 多背景設置:可以設置不同的虛擬主播背景,目前系統內置了透明背景、綠幕、科技主題三種背景,還可以通過上傳圖片的方式自定義自己喜歡的背景進行設置。
  6. 字幕設置:系統可以自動配置字幕,可以設置中文字幕,英文字幕或者雙語字幕。
  7. 多布局設置:可以由參數調節虛擬主播出現在屏幕當中的位置:左測,右側,屏幕中間;以及調節虛擬主播人物大小和展示全身或半身。在選擇虛擬主播出現在屏幕當中的位置為左邊或者右邊的時候,還可以設置台標和台標出現的位置,以及在視頻當中顯示需要播放的視頻文件,做到視頻畫中畫的效果,以還原真實的新聞播報的場景。

視頻畫中畫展示:

在這里插入圖片描述

五、結后語

作為一名開發者來說,在使用HMS ML Kit數字人生成一個視頻之后,尤其是視頻畫中畫的功能,令我嘆為觀止。這切切實實地還原了真實主播所處的新聞播報場景,不禁讓人暢想,在完善化的數字人推行下,是否可以完全替代真人播報呢?

更詳細的開發指南參考華為開發者聯盟官網

https://developer.huawei.com/consumer/cn/hms/huawei-mlkit


原文鏈接: https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者:say hi


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM