VocaListener
开发者 | 产业技术综合研究所 |
---|---|
类型 | 语音合成系统 |
网站 | staff.aist.go.jp/m.goto/VocaListener/index-j.html |
VocaListener(简称ぼかりす)是一个自动测定用户歌声的语音合成参数的系统,可以简单地把输入的歌声转换成另一种风格或声质的技术。技术分为三部分:一是合成歌声模仿目标歌声的核心技术“VocaListener-core”,二是编辑目标歌声的技术“VocaListener-plus”,三是分析歌声的技术“VocaListener-front-end”。主要由中野伦靖和后藤真孝参与研究,先后以VOCALOID 2的初音未来、镜音铃、连、GACKPOID和VOCALOID的MEIKO、KAITO作研究测试,采用的原因是因为产品已发放于市场,较容易入手。而音乐采用RWC研究用音乐数据库(流行音乐)(RWC-MDB-P-2001)。研究目的是希望可以做到轻易合成高品质的歌声,从而探索动听歌声的技巧,并在歌唱中得知人类个人的知觉。
历史
[编辑]技术早于2006年8月已进行研究[1]。最初于2008年4月28日公开,于NICONICO动画上载音乐软件初音未来版本的《PROLOGUE (页面存档备份,存于互联网档案馆)》,歌曲原唱为声优绪方智美。但最初只是写作简称“ぼかりす”,并没有正式发表技术,是一个试验性质的公开。当时正值初音未来热潮后不久,其极为自然、非常接近人类的歌声大大超越初音未来平常歌曲的水准而被称为“神调教”(把初音未来的歌曲调整得十分自然之意),更引起一段短暂对新技术真相的猜测[2]。同年5月2日承认“ぼかりす”就是VocaListener[3]。在5月28日的第75回音乐资讯科学研究会 (页面存档备份,存于互联网档案馆)正式发表。6月6日再公开镜音铃版本的《Game of Love (页面存档备份,存于互联网档案馆)》,歌曲原唱为吉井弘美。9月22日再同时公开KAITO、MEIKO、初音未来、镜音铃、连ACT2、GACKPOID和合唱版本的演歌《大渔船》,2009年2月6日再公开巡音流歌的版本,歌曲原唱为西一男。4月27日开始Yamaha的“Netぼかりす”Alpha版测试,只提供部分功能[4]。
技术
[编辑]系统先以VocaListener-front-end分析目标歌声和歌词,辨认音高、音量、歌词等,再由用户以VocaListener-plus编辑修正,其后以VocaListener-core分析歌声并加以合成,反复测定音高、音量、歌词等的相似度,由用户加以微调,最后得到合成歌声的参数。
VocaListener-core
[编辑]这是合成歌声模仿目标歌声的核心技术,由歌声分析、歌声合成、反复的合成参数更新三种要素组成。歌声分析的对象不止目标歌声,亦会对合成后的歌声作出分析,但分析的使用技术Viterbi alignment会有辨认错误的问题,需要反复分析,务求两者的风格尽量相近。判定音高分为MIDI的音名数值和滑音斜率。在音名数值中,组合VOCALOID 2滑音斜率(PIT、Pitch Bend)和滑音斜率敏感度(PBS、Pitch Bend Sensitivity)最多可以做出高或低两个八度的滑音,而音名数值由以下数式选择(NoteNumber:音名数值、σ=0.03、t是音符长度。):
而合成歌声是、目标歌声则是。经过重复计算而把两个数值不断更新,变得相似。把PIT和PBS转换为数式则是如此:
而音量测定上是使用相对数值,反复测定而得到从0至127的强弱(DYN、Dynamics)数值。
VocaListener-plus
[编辑]这是编辑目标歌声的技术,可以令歌声有更广阔的种类,但并非一定要使用。技术中分为两种类,分别是改变音高和改变歌唱风格的机能。前者的改变音高,用途可以是修正走音,或可以合成原唱者不能唱出的音高。然而在音符较短的时候,可能会不能修正音高。后者可调整振音的强弱、音高、音量的平滑感,藉以改变歌唱风格,甚至加强歌唱的表现。
VocaListener-front-end
[编辑]VocaListener-front-end则分为歌声分析及歌声合成,在歌声分析中需要从原歌声中抽出音高、音量、发音开始时间和音长。
- 技术中N为2048(约46毫秒)、h(t)为汉宁(Hanning)窗。
- 发音开始时间和音长
- 使用Viterbi alignment辨认音声,再从歌词转换为音素,但偶然会有辨认错误,需要用户修正。
参见
[编辑]参考资料
[编辑]- ^ ([//web.archive.org/web/20160305001026/http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf 页面存档备份,存于互联网档案馆) (页面存档备份,存于互联网档案馆) スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ] (页面存档备份,存于互联网档案馆),发布页 (页面存档备份,存于互联网档案馆)
- ^ 初音未來的「神調教」是自動!? 「ぼかりす」話題騷然. ITmedia. 2008年5月1日 [2008年5月3日]. (原始内容存档于2022年3月8日) (日语).
- ^ 「NICONICO」的「初音未來歌聲」 達到「神的領域」令網絡騷然. J-CAST. 2008年5月2日 [2008年5月3日]. (原始内容存档于2008年5月3日) (日语).
- ^ VOCALOID“神調教”技術「ぼかりす」実用化へ、ヤマハと産総研が連携 [VOCALOID“神调教”技术“VocaListener”实用化,Yamaha与产总研合作]. ITmedia. 2009年4月27日 [2009年4月27日]. (原始内容存档于2021年10月7日) (日语).
- 中野伦靖、后藤真孝. VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案. 情報処理学会 研究報告 2008-MUS-75.vol.2008, no.50, pp.49-56, 2008. 論文PDF (PDF). 产业技术综合研究所. 2008年6月1日 [2008年6月1日]. (原始内容 (PDF)存档于2021年10月12日) (日语).
- 中野伦靖、后藤真孝. VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案. 情報処理学会 研究報告 2008-MUS-75.vol.2008, no.50, pp.49-56, 2008. 発表資料PDF (PDF). 产业技术综合研究所. 2008年6月1日 [2008年6月1日]. (原始内容 (PDF)存档于2021年10月12日) (日语).
外部链接
[编辑]- (日语)VocaListener (页面存档备份,存于互联网档案馆)
- (日语)NICONICO动画:VocaListener Demonstrations (页面存档备份,存于互联网档案馆)
- (英文)(日语)产业技术综合研究所 (页面存档备份,存于互联网档案馆)
- (日语)后藤 真孝's Home Page (页面存档备份,存于互联网档案馆)
- (日语)中野伦靖个人档案
- (英文)(日语)RWC音乐数据库:流行音乐 (页面存档备份,存于互联网档案馆)
- (英文)(日语)RWC音乐数据库:音乐分类 (页面存档备份,存于互联网档案馆)