Speech Synthesis
语音合成数据准备流程
在开发高质量的文本转语音(TTS)系统时,数据准备是至关重要的第一步。本文简要总结了从原始音频到最终训练数据集的转换过程、一些适合训练语音合成模型的开源语音数据库。 数据准备概述 Link to this section # TTS系统的训练需要大量高质量、结构化的语音数据。为了获得这样的数据集,我 …
Python分析基频和能量
基频提取 Link to this section # 提取基频的方法,参考这个slides总结的不错: 基频统计 Link to this section # 用librosa.pyin提取C2-C5之间的基频,提取速度一般,删除基频为nan的值,通过hierarchical softmax …
开源音频编码器soundstream-light
SoundStream是Google提出的端到端神经音频压缩模型,能够以低码率获得高保真重建,适用于实时语音、在线会议与多媒体应用。我创建了一个开源项目soundstream-light,将精简的C++推理实现与官方TFLite模型整合,打包成Python模块和跨平台命令行工具。 图片来 …
用TTS生成游戏音库
在游戏开发中,高质量的语音通知对于增强玩家体验至关重要。本文将分享如何利用IBM Watson的文本转语音服务生成基础音频,并通过Adobe Audition进行后期处理,制作出专业级的游戏通知音效。 用IBM Watson TTS生成音频 Link to this section # 首先,访 …