嘴型同步

维基百科,自由的百科全书
跳到导航 跳到搜索

嘴型同步是語音轉表情系列技術的一種,指的是將一段錄製的語音轉成某個人講這段話的嘴型。一般來說,這個人會是講過這段語音的人,但技術上的確可以做到,製造一段影像,讓一個人講出他未曾講過的話。

2016年,華盛頓大學國際電腦視覺研討會上發表了一篇論文《是什麼讓湯姆漢克看起來像湯姆漢克》[1],這篇論文中搜集了大量湯姆漢克的照片,用機器學習訓練出他三維的模型,一旦模型建造完畢,就可以用不同人的影像驅動湯姆漢克的模型,讓這個模型做出湯姆漢克未曾做過的表情跟動作,但看起來跟真人做的一樣。

2017年,華盛頓大學又在圖學研討會上發表全球最新的嘴型同步技術[2],這一次是大量搜集美國前總統歐巴馬的演講,通过機器學習,得到不同的語音跟嘴型之間的配對.然後就從網路上隨機擷取一段歐巴馬的演講視頻,把語音的部分移除,填上另外一段語音在合成嘴型,讓歐巴馬看起來是真的在說後來填上去的那一段話。

一般說來,合成一段影像,讓一個人的錄影說出他不曾說過的話,是有道德跟法律上的爭議.到目前為止也沒有看到真正這樣做的學術團隊,但技術上來說,這是可行的。

參考資料[编辑]

  1. ^ What makes Tom Hanks look like Tom Hanks? | UW News. www.washington.edu. [2017-12-01] (英语). 
  2. ^ Lip-syncing Obama: New tools turn audio clips into realistic video | UW News. www.washington.edu. [2017-12-01] (英语).