一、數字人介紹
虛擬數字人是綜合多模態AI能力,結合圖像視覺、情緒生成、語音克隆、語義理解等多種AI技術,廣泛應用於媒體新聞主播、金融客服、虛擬游戲等眾多場景。
數字人在行業中的應用:
二、HMS ML Kit數字人
HMS ML Kit數字人是依托華為公司強大的圖像處理、語音合成、聲音克隆、語義理解等AI核心技術,全新推出的綜合多模態AI能力。面向教育、新聞、多媒體制作企業,提供高質量、低成本、創新體驗的內容創作模式。對比其他廠商數字人,HMS ML Kit數字人的優勢明顯:
支持超高清4K影院級效果
-
支持大屏展示,全身細節紋理均達到同等清晰度
-
生成與真實背景圖像無縫融合,高清分辨率下無融合痕跡
-
嘴唇細節、口紅反光分明、紋理清晰
-
牙齒清晰可見,齒縫紋理清晰真實
合成效果逼真度
-
真實還原牙齒(非貼圖)、嘴唇、甚至口紅反光細節。
-
真實還原面部光照、對比度、陰影、酒窩等細節。
-
嘴部皮膚生成紋理與真實紋理無縫對接。
-
相對3D主播,無動畫生硬感。
三、HMS ML Kit數字人生成數字人視頻展示
從上圖中我們可以看到HMS ML Kit數字人超高清的真人視頻效果,不僅口齒清晰,ML Kit數字人還對一些細節的掌控更加優秀:嘴唇細節、口紅反光細節、更加真實的面部發音以及細致的面部光照效果。
四、HMS ML Kit數字人服務集成
4.1 服務集成過程
4.1.1 提交需要生成的文本信息
調用【定制文本轉虛擬數字人視頻接口】,將一些配置(config)和需要轉化的文本(data)通過該接口傳輸至后端進行處理:首先,要對傳輸進來的data的文本字符長度進行校驗,中文文本最大字符長度不得超過1000,英文文本單個字符長度不得超過3000,英文文本單詞長度不得超過3000,對於傳輸進來的config做非空校驗,然后將config和data提交,將文本文字轉化為音頻文件。
4.1.2 異步執行的定時任務
會有一個異步執行的定時任務處理提交的數據,調用TTS提供的算法,將文本文件轉化為視頻文件,並且將上一步得到的音頻文件與視頻文件合成起來。
4.1.3 查詢文本是否轉化成功
調用【文本轉虛擬數字人視頻結果查詢接口】,實時查詢異步執行的文本轉視頻是否已經執行完畢;如果執行完畢,將會返回一個生成視頻的鏈接。
4.1.4 根據視頻鏈接訪問視頻文件
根據【文本轉虛擬數字人視頻結果查詢接口】所返回的視頻鏈接,訪問生成的視頻文件。
4.2 服務集成的主要接口
4.2.1 定制文本轉虛擬數字人視頻接口
URL:
http://10.33.219.58:8888/v1/vup/text2vedio/submit
請求參數:
主要功能:
輸入文本轉換成虛擬數字人視頻接口,此接口為異步接口,當前版本轉換需要一定時間,采用離線方法,最終轉換結果需要通過【文本轉虛擬數字人視頻結果查詢接口】查詢。如果提交的文本已經合成過,直接返回播放URL。
主要邏輯:
根據前端頁面所傳輸的需要合成的文本數據data,根據config所提供的一些配置,將文本文字轉化為音頻文件。異步執行多線程,根據所提供的算法模型生成合乎發音的視頻文件,然后將視頻文件與音頻文件合成起來,生成所需的數字人視頻。如果提交的文本已經合成過,直接返回播放URL。
4.2.2 文本轉虛擬數字人視頻結果查詢接口
URL:
http://10.33.219.58:8888/v1/vup/text2vedio/query
請求參數:
主要功能:
根據提交文本ID批量查詢轉換狀態。
主要邏輯:
根據前端頁面所傳輸的合成的文本數據ID列表,即textIds字段,查詢所得到的視頻文件合成的任務狀態,將得到的狀態結果存在集合,作為返回參數,插入到返回的請求當中。如果請求的文本已合成過,直接返回播放URL。
4.2.3文本轉虛擬數字人視頻批量下線接口
URL:
http://10.33.219.58:8888/v1/vup/text2vedio/offline
請求參數:
主要功能:
根據提交文本ID批量下線。
主要邏輯:
根據前端頁面所傳輸的合成的文本數據ID數組,即textIds字段,對該數組內所有ID對應的視頻進行下線設置,改變其狀態為下線狀態,同時刪除視頻文件,被下線的視頻無法播放和觀看。
4.3 HMS ML Kit數字人服務實現的主要功能
HMS ML Kit數字人服務的功能非常強大:
- 雙語發音:由於目前系統支持中文發音和英文發音,可以傳輸中文文本和英文文本作為發音數據。
- 多個虛擬主播形象:支持不同虛擬主播發音,目前系統里配置了4名虛擬主播,分別為:中文女士發音,上海日報,英文女士發音,英文男士發音。
- 畫中畫視頻播放:除了對虛擬主播的設置以外,視頻播放支持畫中畫即小窗播放視頻,在畫中畫模式播放視頻時,視頻窗口隨屏幕移動,可以一邊查看文本,一邊播放視頻,視頻窗口還可以拖拽到任意位置,以至於不遮擋文本位置。
- 可調節的語速,音量,音調:可以滿足不同需求的發音速度,發音音量以及發音音調。
- 多背景設置:可以設置不同的虛擬主播背景,目前系統內置了透明背景、綠幕、科技主題三種背景,還可以通過上傳圖片的方式自定義自己喜歡的背景進行設置。
- 字幕設置:系統可以自動配置字幕,可以設置中文字幕,英文字幕或者雙語字幕。
- 多布局設置:可以由參數調節虛擬主播出現在屏幕當中的位置:左測,右側,屏幕中間;以及調節虛擬主播人物大小和展示全身或半身。在選擇虛擬主播出現在屏幕當中的位置為左邊或者右邊的時候,還可以設置台標和台標出現的位置,以及在視頻當中顯示需要播放的視頻文件,做到視頻畫中畫的效果,以還原真實的新聞播報的場景。
視頻畫中畫展示:
五、結后語
作為一名開發者來說,在使用HMS ML Kit數字人生成一個視頻之后,尤其是視頻畫中畫的功能,令我嘆為觀止。這切切實實地還原了真實主播所處的新聞播報場景,不禁讓人暢想,在完善化的數字人推行下,是否可以完全替代真人播報呢?
更詳細的開發指南參考華為開發者聯盟官網
https://developer.huawei.com/consumer/cn/hms/huawei-mlkit
原文鏈接: https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者:say hi