一文搞懂華為ML Kit數字人，超簡單集成

本文轉載自查看原文 2020-11-02 17:48 1683 hms core

一、數字人介紹

虛擬數字人是綜合多模態AI能力，結合圖像視覺、情緒生成、語音克隆、語義理解等多種AI技術，廣泛應用於媒體新聞主播、金融客服、虛擬游戲等眾多場景。

數字人在行業中的應用：

在這里插入圖片描述

二、HMS ML Kit數字人

HMS ML Kit數字人是依托華為公司強大的圖像處理、語音合成、聲音克隆、語義理解等AI核心技術，全新推出的綜合多模態AI能力。面向教育、新聞、多媒體制作企業，提供高質量、低成本、創新體驗的內容創作模式。對比其他廠商數字人，HMS ML Kit數字人的優勢明顯：

支持超高清4K影院級效果

支持大屏展示，全身細節紋理均達到同等清晰度
生成與真實背景圖像無縫融合，高清分辨率下無融合痕跡
嘴唇細節、口紅反光分明、紋理清晰
牙齒清晰可見，齒縫紋理清晰真實

合成效果逼真度

真實還原牙齒（非貼圖）、嘴唇、甚至口紅反光細節。
真實還原面部光照、對比度、陰影、酒窩等細節。
嘴部皮膚生成紋理與真實紋理無縫對接。
相對3D主播，無動畫生硬感。

在這里插入圖片描述

三、HMS ML Kit數字人生成數字人視頻展示

在這里插入圖片描述

從上圖中我們可以看到HMS ML Kit數字人超高清的真人視頻效果，不僅口齒清晰，ML Kit數字人還對一些細節的掌控更加優秀：嘴唇細節、口紅反光細節、更加真實的面部發音以及細致的面部光照效果。

四、HMS ML Kit數字人服務集成

4.1 服務集成過程

4.1.1 提交需要生成的文本信息

調用【定制文本轉虛擬數字人視頻接口】，將一些配置（config）和需要轉化的文本（data）通過該接口傳輸至后端進行處理：首先，要對傳輸進來的data的文本字符長度進行校驗，中文文本最大字符長度不得超過1000，英文文本單個字符長度不得超過3000，英文文本單詞長度不得超過3000，對於傳輸進來的config做非空校驗，然后將config和data提交，將文本文字轉化為音頻文件。

4.1.2 異步執行的定時任務

會有一個異步執行的定時任務處理提交的數據，調用TTS提供的算法，將文本文件轉化為視頻文件，並且將上一步得到的音頻文件與視頻文件合成起來。

4.1.3 查詢文本是否轉化成功

調用【文本轉虛擬數字人視頻結果查詢接口】，實時查詢異步執行的文本轉視頻是否已經執行完畢；如果執行完畢，將會返回一個生成視頻的鏈接。

4.1.4 根據視頻鏈接訪問視頻文件

根據【文本轉虛擬數字人視頻結果查詢接口】所返回的視頻鏈接，訪問生成的視頻文件。

4.2 服務集成的主要接口

4.2.1 定制文本轉虛擬數字人視頻接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/submit

請求參數：

在這里插入圖片描述

主要功能：
輸入文本轉換成虛擬數字人視頻接口，此接口為異步接口，當前版本轉換需要一定時間，采用離線方法，最終轉換結果需要通過【文本轉虛擬數字人視頻結果查詢接口】查詢。如果提交的文本已經合成過，直接返回播放URL。

主要邏輯：
根據前端頁面所傳輸的需要合成的文本數據data，根據config所提供的一些配置，將文本文字轉化為音頻文件。異步執行多線程，根據所提供的算法模型生成合乎發音的視頻文件，然后將視頻文件與音頻文件合成起來，生成所需的數字人視頻。如果提交的文本已經合成過，直接返回播放URL。

4.2.2 文本轉虛擬數字人視頻結果查詢接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/query

請求參數：

在這里插入圖片描述

主要功能：

根據提交文本ID批量查詢轉換狀態。

主要邏輯：
根據前端頁面所傳輸的合成的文本數據ID列表，即textIds字段，查詢所得到的視頻文件合成的任務狀態，將得到的狀態結果存在集合，作為返回參數，插入到返回的請求當中。如果請求的文本已合成過，直接返回播放URL。

4.2.3文本轉虛擬數字人視頻批量下線接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/offline

請求參數：

在這里插入圖片描述

主要功能：
根據提交文本ID批量下線。

主要邏輯：
根據前端頁面所傳輸的合成的文本數據ID數組，即textIds字段，對該數組內所有ID對應的視頻進行下線設置，改變其狀態為下線狀態，同時刪除視頻文件，被下線的視頻無法播放和觀看。

4.3 HMS ML Kit數字人服務實現的主要功能

HMS ML Kit數字人服務的功能非常強大：

雙語發音：由於目前系統支持中文發音和英文發音，可以傳輸中文文本和英文文本作為發音數據。
多個虛擬主播形象：支持不同虛擬主播發音，目前系統里配置了4名虛擬主播，分別為：中文女士發音，上海日報，英文女士發音，英文男士發音。
畫中畫視頻播放：除了對虛擬主播的設置以外，視頻播放支持畫中畫即小窗播放視頻，在畫中畫模式播放視頻時，視頻窗口隨屏幕移動，可以一邊查看文本，一邊播放視頻，視頻窗口還可以拖拽到任意位置，以至於不遮擋文本位置。
可調節的語速，音量，音調：可以滿足不同需求的發音速度，發音音量以及發音音調。
多背景設置：可以設置不同的虛擬主播背景，目前系統內置了透明背景、綠幕、科技主題三種背景，還可以通過上傳圖片的方式自定義自己喜歡的背景進行設置。
字幕設置：系統可以自動配置字幕，可以設置中文字幕，英文字幕或者雙語字幕。
多布局設置：可以由參數調節虛擬主播出現在屏幕當中的位置：左測，右側，屏幕中間；以及調節虛擬主播人物大小和展示全身或半身。在選擇虛擬主播出現在屏幕當中的位置為左邊或者右邊的時候，還可以設置台標和台標出現的位置，以及在視頻當中顯示需要播放的視頻文件，做到視頻畫中畫的效果，以還原真實的新聞播報的場景。

視頻畫中畫展示：

在這里插入圖片描述

五、結后語

作為一名開發者來說，在使用HMS ML Kit數字人生成一個視頻之后，尤其是視頻畫中畫的功能，令我嘆為觀止。這切切實實地還原了真實主播所處的新聞播報場景，不禁讓人暢想，在完善化的數字人推行下，是否可以完全替代真人播報呢？

更詳細的開發指南參考華為開發者聯盟官網

https://developer.huawei.com/consumer/cn/hms/huawei-mlkit

原文鏈接： https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者：say hi

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一文搞懂華為ML Kit拍照購，超簡單集成一文輕松集成華為HMS ML Kit 表格識別服務超簡單集成華為HMS ML Kit文本識別SDK，一鍵實現賬單號自動錄入超簡單集成ML kit 實現聽寫單詞播報超簡單集成HMS ML Kit 實現parental control 修圖神器—超簡單實現華為HMS ML Kit圖像超分辨率 Android | 超簡單集成HMS ML Kit實現最大臉微笑抓拍超簡單集成HMS ML Kit 人臉檢測實現可愛貼紙超簡單集成HMS Core ML Kit場景識別，構建相冊管理新模式一文搞懂什么是RNN（超直觀易懂）