自動修改文章的軟件,基於AI技術


近年來,智能寫作機器人逐漸進入互聯網,為人們提供簡單的仿寫、偽原創等仿寫。但是,由於大多數仿寫機器人只能被動地響應用戶的請求,同時,大多數客人不知道仿寫機器人的功能,甚至不知道它們能否正常工作,所以很多人不會輕率地選擇仿寫機器人。

這種現象使得仿寫機器人大部分時間很難發揮實際作用,使用和互動的頻率很低,使其成為“移動平板電腦”。如果仿寫機器人能夠主動關注工作區域的場景,針對有潛在需求的訪客,在客戶要求之前發起互動,既能讓人有賓至如歸的感覺,又能主動讓用戶了解仿寫機器人的功能,使機器人更加智能化、人性化,增強客人體驗。

為此,互聯網工程師率先在小發貓機器人上進行了技術創新。小發貓機器人降落在互聯網公司各個辦公樓的大堂,提供歡迎咨詢、引導講解、互動娛樂等功能,是互聯網對外歡迎的重要組成部分。這項技術的目的是使小發貓機器人能夠了解當前的場景,發現用戶的潛在意圖,並主動啟動交互的第一步。

主動交互雖然在學術界已經做了一些前期工作,但主要是通過距離傳感器、攝像頭等設備感知行人的意圖,按照預設的交互規則發起簡單而寬泛的交互,比如簡單地打招呼、握手等。但是這些交互模式通常都是非常有限的(比如不到10個)。

為了讓機器人更好地理解場景的細節,帶來更加智能、友好和自然的交互體驗,互聯網提出了一種全新的“中文表達方式轉換器”(簡稱XX-BB)。該系統不僅可以觀察場景,主動發起互動和引導,還包括一千多個多模態動作,可以像人類一樣表現出自然主動的問候。接下來,讓我們跟隨示范視頻來看看機器人在小發貓的新技能。

互聯網提出的XX-BB框架是業界首次嘗試將主動互動擴展為集表達、行動和豐富言語為一體的多模態互動模式。通過目標檢測器,將可能對主動交互產生影響的相關對象提取為覆蓋視覺和相對空間信息的視覺表征,然后利用Transformer網絡學習一段時間內視覺表征之間的關系,從而實現交互主體的時空建模,預測交互主體是否有潛在的交互意圖,以及在當前幀中什么是合適的多模態動作畫。

本工作以小型機器人為主體,構建了完整的主動交互解決方案,包括數據采集、模型訓練和嵌入式設備部署。小機器人工作的真實環境(通常是公共場所、大堂等)。)非常復雜,各種光照環境也給基於計算機視覺技術的主動交互計算帶來巨大挑戰。

為此,互聯網在幾個大廳收集了不同場景的視頻片段,並標注了合適的觸發時間點和多模態動作。總共標記了數千小時的視頻剪輯,包括3800個需要啟動主動交互的場景。數據和交互專家標注了1000多個多模態動作組合,並利用采樣技術獲取足夠的負樣本輔助訓練。

XFM框架包括三個模塊:可視化令牌提取器、多模態動作表示和基於Transformer的交互決策模型,如下圖所示。TFVT-HRI框架首先使用Yolo作為視覺特征提取器,提取每個幀圖像中多個物體和人的區域,並結合位置信息生成表示(a)。接下來,多幀連續信息由變換器模型(B)編碼。這樣,模型不僅可以得到圖像中每個物體隨時間運動的軌跡,還可以得到人物之間的互動關系,這對理解場景起着至關重要的作用。另一方面,我們對專家注釋的多模態動作進行編碼,其中語言由ERNIEE編碼,ERNI是互聯網,的大規模語義理解模型,動作由嵌入(C)表示。這種編碼方法在語言上有很好的概括和理解能力。最后,模型需要決定是否發起主動交互和選擇多模態動作。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM