嘴型同步

嘴型同步是語音轉表情系列技術的一種，指的是將一段錄製的語音轉成某個人講這段話的嘴型。一般來說，這個人會是講過這段語音的人，但技術上的確可以做到，製造一段影像，讓一個人講出他未曾講過的話。

2016年，華盛頓大學國際電腦視覺研討會上發表了一篇論文《是什麼讓湯姆漢克看起來像湯姆漢克》^[1]，這篇論文中搜集了大量湯姆漢克的照片，用機器學習訓練出他三維的模型，一旦模型建造完畢，就可以用不同人的影像驅動湯姆漢克的模型，讓這個模型做出湯姆漢克未曾做過的表情跟動作，但看起來跟真人做的一樣。

2017年，華盛頓大學又在圖學研討會上發表全球最新的嘴型同步技術^[2]，這一次是大量搜集美國前總統奧巴馬的演講，透過機器學習，得到不同的語音跟嘴型之間的配對．然後就從網絡上隨機擷取一段奧巴馬的演講視頻，把語音的部分移除，填上另外一段語音在合成嘴型，讓奧巴馬看起來是真的在說後來填上去的那一段話。