模型参数过亿跑不动?看MIT小哥,少量数据完成高质量文本转语音!
新智元报道
新智元报道
来源:fifteen.ai
编辑:白峰
【新智元导读】市面上文本转语音的工具已经很多了,国内的一些厂商也提供了在线的API,但是我们如果需要特定语调的音频还是要自己训练模型,但是传统的深度学习方法需要大量的语料,训练起来又十分消耗资源,有没有替代方案呢?今天我们就来看一款轻量的文本转语音工具。「新智元急聘主笔、编辑、运营经理、客户经理,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」
最近 reddit 上一个文本转语音的 app 火了,它是一家叫做 fifteen.ai 的公司推出的,与传统的深度神经网络文本转语音模型不同,它不需要大量的原始语音数据。
少量训练数据即可生成高保真音频
这个文本语音转换工具,可用于生成各种文本的 44.1 kHz 语音。语音是使用多种音频合成算法和经过定制的深度神经网络实时生成的,这些神经网络是在很少的可用数据上进行训练的(每个角色 30 到 120 分钟之间的纯净音频)。该项目表明,克隆声音所需的音频数量显著减少的同时还能保持角色的情感。
作者提供了一个在线网站,可以方便的转换自己的文本本网站仅用于非商业用途。如果想用于商业用途,只要给出原文链接就好了。

该工具生成的音频文件的采样率为 44100 Hz,而大多数基于深度学习的文本转语音实现,所使用的采样率为 16,000 Hz。所以用它产生的音频,声谱会更详细(更高质量的音频),同时缺陷也更明显。你可以使用其他的音频编辑工具(例如 Audacity)将生成的音频降采样为较低的采样率,让音频显得更像人类,尽管这样做会使音频听起来相对模糊。
如何利用这个工具制作自己的音频
将来我们会对这个工具进行改进,改进之前有个折衷的方法,你可以多生成几次,由于神经网络的不确定性,每次生成的音频都会有些差异,你可以选择自己最满意的。
当然在这么小的语料上训练的模型也是有缺陷的,有些单词可能发音不准确,其实这也很好理解,即使是人,在遇到生词的时候也不一定能准确发音,而传统的深度模型通常有 40 个小时或者更多的语料,所以错误率会低一些。但是这款工具对那些缺乏足够语料的人来说,还是很实用的。
另外作者提到一些 tricks,可以帮忙提高模型的泛化能力。像故意添加一些拼写错误,标点符号,又或是故意扭曲发音,以提高模型的适用性。
“不要指望第一次尝试就会得到完美的音频。要生成令你满意的发音和语调,可能需要不断去尝试。”

我们可以利用这个工具的网页版,生成自己的音频,随机选择一段或者自己输入一段文本,稍等一会点击播放按钮就可以播放了,赶快去试一下吧!
参考链接:
https://fifteen.ai

关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 总书记的两会“关心事” 7920229
- 2 中方回应菲前总统杜特尔特携女访港 7997569
- 3 苦等丈夫80多年 103岁的她去世 7849119
- 4 三大通道聚焦这些“大事小情” 7791466
- 5 国家版减肥指南来了 7641180
- 6 26岁小伙做泰山陪爬年入30多万 7505371
- 7 00后用DeepSeek1天卖出3.3亿 7492286
- 8 88年的爸爸晒出五儿四女 7309664
- 9 女生住院 男友来探望遇上女方爸爸 7290508
- 10 乡村如何吸引并留住年轻人 7120061