日本一本正道综合久久dvd_亚洲综合图_色综合久久天天_亚洲综合图色国模40p_国产精品嘿咻嘿咻

 
首頁 > 熱點(diǎn) >
 
 

西交大開源SadTalker模型 圖片+音頻秒變視頻!|全球觀點(diǎn)

2023-04-20 18:15:46  來源:站長之家


(資料圖片)

編程客棧()4月19日 消息:最近,西安交通大學(xué)的研究人員提出了SadTalker模型,通過php從音頻中學(xué)習(xí)生成3D運(yùn)動系數(shù),使js用全新的3D面部渲染器來生成頭部運(yùn)動,可以實(shí)現(xiàn)圖片+音頻就能生成高質(zhì)量的視頻。

為了實(shí)現(xiàn)音頻驅(qū)動的真實(shí)頭像視頻生成,研究人員將3DMM的運(yùn)動系數(shù)視為中間表征,并將任務(wù)分為兩個主要部分(表情和姿勢)編程,旨在從音頻中生成更真實(shí)的運(yùn)動系數(shù)(如頭部姿勢、嘴唇運(yùn)動和眼睛編程眨動),并單獨(dú)學(xué)習(xí)每個運(yùn)動以減少不確定性。最后通過一個受face-vid2vid啟發(fā)設(shè)計(jì)的3D感知的面部渲染來驅(qū)動源圖像。

論文鏈接:https://arxiv.org/pdf/2211.12194.pdf

項(xiàng)目主頁:https://sadtalker.github.io/

gjuEvLWKR究人員使用SadTalker模型從音頻中學(xué)習(xí)生成3D運(yùn)動系數(shù),使用全新的3D面部渲染器來生成頭部運(yùn)動。該技術(shù)可以控制眨眼頻率,音頻可以是英文、中文、歌曲。

這項(xiàng)技術(shù)在數(shù)字人創(chuàng)作、視頻會議等多個領(lǐng)域都有應(yīng)用,能夠讓靜態(tài)照片動起來,但目前仍然是一項(xiàng)非常有挑戰(zhàn)性的任務(wù)。SadTalker模型的出現(xiàn)解決了生成視頻的質(zhì)量不自然、面部表情扭曲等問題。該技術(shù)可以應(yīng)用于數(shù)字人創(chuàng)作、視頻會議等多個領(lǐng)域。

關(guān)鍵詞:

  
相關(guān)新聞
每日推薦
  • 滾動
  • 綜合
  • 房產(chǎn)