现在有能模拟特定人声音的算法吗?

 2024-02-04 00:56:28 西瓜影视

技术先进程度大致从低到高:FM调频合成:最原始的一种方法,直接用函数对波进行调制从而发声,此乃数十年前的技术,是后面技术的基础。缺点很明显,几乎无法模拟出真实声音。(硬件设备方法)波表合成:MIDI类音乐合成的思想,就是把那些预先调制好的声音存储起来,通过信号来提取声音,这样把调制的过程预先封装了。(软、硬设备方法)软音源合成:软音源合成的音源可以是波表(人工调制音色),也可以是真实乐器录好的(注意,一般会录很多遍,减少重复感,那一段雨声假如采样得足够多,就足以通过rain软音源编制出几乎真实的下雨效果) (软件方法)物理模型合成:这个是人工音源运用了FM调频的思想,把一段音质拆分成好多参数(玩过vocaloid的人知道每个音节都有十几个发音参数),通过调控参数来达到模拟的效果。(这里的参数也可以封装成软音源的控制器参数。) (软件方法)粒子合成:这个多用于传统乐器的模拟,方法是:建模出乐器的样子,然后用空气动力学和粒子模拟等方法,完全模拟出现实中演奏乐器时空气流的运动和乐器体的振动,这样达到的模拟度非常高。我想,雨声应该不会比器乐难模拟。此技术处于学术阶段,还没用到普通软件里,比如通过对特定人(比如明星)的大量声音进行分析,提取出音色特点;在后又讲话这发生,弱化发言者的音色特点,增加上特定人的音色特点? 用计算机算法实现,能够基本实时。

如果是从文字到语音,那么叫做“语音合成”;如果是从一个人的语音到另一个人的语音,那么叫“语音转换”。这两件事情都有人在研究,其中“语音合成”大家可能更为熟悉,比如Siri的声音就是合成出来的。语音合成或转换的软件发布时,一般会内置几个人的声音,文字或别人的声音可以比较容易地转换成这些内置声音。但如果要转换成用户自己的声音,就需要录制用户自己的声音作为训练数据了。我不知道有什么现成的软件可以让小白也能简单地完成这件事。就像完美地P出一张图一样,虽然可行,能以假乱真,但总会有不完美的地方。

模拟特定人声,音乐从业者应该都能做,不如邀请相关人士回答。B站的业余up主,也能把金克拉广告的吐字裁出来制作成歌。只要技术高,字与字的衔接并不是问题,参考初音未来。声调,滑音,都能用软件模仿得当。但并没有固定的一套完整算法,而是需要人来一部分一部分地完成。另外音色可以分为两类,有采样式音色还有一个是建模音色,这些通过物理模型完全模拟声音。在很长一段时间里,建模音色效果都不理想,因为影响音色的要素太多。不过,现在对于研究最多的钢琴音色,V-Piano 等建模音色,效果已经足以乱真。

资讯推荐