嘴型同步

維基百科,自由的百科全書

嘴型同步是語音轉表情系列技術的一種,指的是將一段錄製的語音轉成某個人講這段話的嘴型。一般來說,這個人會是講過這段語音的人,但技術上的確可以做到,製造一段影像,讓一個人講出他未曾講過的話。

2016年,華盛頓大學國際電腦視覺研討會上發表了一篇論文《是什麼讓湯姆漢克看起來像湯姆漢克[1],這篇論文中搜集了大量湯姆漢克的照片,用機器學習訓練出他三維的模型,一旦模型建造完畢,就可以用不同人的影像驅動湯姆漢克的模型,讓這個模型做出湯姆漢克未曾做過的表情跟動作,但看起來跟真人做的一樣。

2017年,華盛頓大學又在圖學研討會上發表全球最新的嘴型同步技術[2],這一次是大量搜集美國前總統奧巴馬的演講,透過機器學習,得到不同的語音跟嘴型之間的配對.然後就從網絡上隨機擷取一段奧巴馬的演講視頻,把語音的部分移除,填上另外一段語音在合成嘴型,讓奧巴馬看起來是真的在說後來填上去的那一段話。

一般說來,合成一段影像,讓一個人的錄影說出他不曾說過的話,是有道德法律上的爭議.到目前為止也沒有看到真正這樣做的學術團隊,但技術上來說,這是可行的。

參考資料[編輯]

  1. ^ What makes Tom Hanks look like Tom Hanks? | UW News. www.washington.edu. [2017-12-01]. (原始內容存檔於2020-11-28) (英語). 
  2. ^ Lip-syncing Obama: New tools turn audio clips into realistic video | UW News. www.washington.edu. [2017-12-01]. (原始內容存檔於2020-11-29) (英語).