嘴型同步

维基百科,自由的百科全书

嘴型同步是语音转表情系列技术的一种,指的是将一段录制的语音转成某个人讲这段话的嘴型。一般来说,这个人会是讲过这段语音的人,但技术上的确可以做到,制造一段影像,让一个人讲出他未曾讲过的话。

2016年,华盛顿大学国际电脑视觉研讨会上发表了一篇论文《是什么让汤姆汉克看起来像汤姆汉克[1],这篇论文中搜集了大量汤姆汉克的照片,用机器学习训练出他三维的模型,一旦模型建造完毕,就可以用不同人的影像驱动汤姆汉克的模型,让这个模型做出汤姆汉克未曾做过的表情跟动作,但看起来跟真人做的一样。

2017年,华盛顿大学又在图学研讨会上发表全球最新的嘴型同步技术[2],这一次是大量搜集美国前总统奥巴马的演讲,通过机器学习,得到不同的语音跟嘴型之间的配对.然后就从网络上随机撷取一段奥巴马的演讲视频,把语音的部分移除,填上另外一段语音在合成嘴型,让奥巴马看起来是真的在说后来填上去的那一段话。

一般说来,合成一段影像,让一个人的录影说出他不曾说过的话,是有道德法律上的争议.到目前为止也没有看到真正这样做的学术团队,但技术上来说,这是可行的。

参考资料[编辑]

  1. ^ What makes Tom Hanks look like Tom Hanks? | UW News. www.washington.edu. [2017-12-01]. (原始内容存档于2020-11-28) (英语). 
  2. ^ Lip-syncing Obama: New tools turn audio clips into realistic video | UW News. www.washington.edu. [2017-12-01]. (原始内容存档于2020-11-29) (英语).