嘴型同步

嘴型同步是语音转表情系列技术的一种，指的是将一段录制的语音转成某个人讲这段话的嘴型。一般来说，这个人会是讲过这段语音的人，但技术上的确可以做到，制造一段影像，让一个人讲出他未曾讲过的话。

2016年，华盛顿大学国际电脑视觉研讨会上发表了一篇论文《是什么让汤姆汉克看起来像汤姆汉克》^[1]，这篇论文中搜集了大量汤姆汉克的照片，用机器学习训练出他三维的模型，一旦模型建造完毕，就可以用不同人的影像驱动汤姆汉克的模型，让这个模型做出汤姆汉克未曾做过的表情跟动作，但看起来跟真人做的一样。

2017年，华盛顿大学又在图学研讨会上发表全球最新的嘴型同步技术^[2]，这一次是大量搜集美国前总统奥巴马的演讲，通过机器学习，得到不同的语音跟嘴型之间的配对．然后就从网络上随机撷取一段奥巴马的演讲视频，把语音的部分移除，填上另外一段语音在合成嘴型，让奥巴马看起来是真的在说后来填上去的那一段话。