用Colab Pro+和Google Cloud Storage低成本训练600M参数的模型
介绍一个实用的小参数量模型训练方案:通过Google Colab Pro+提供计算能力、Google Cloud Storage(GCS)存储数据,用1万小时语音数据低成本训练一个600M参数的文本到语音 (TTS) 模型 parler-tts-mini-v0.1。在这篇文章中,我会详细说明每个具体步骤,包括一些踩过的坑。 ...
介绍一个实用的小参数量模型训练方案:通过Google Colab Pro+提供计算能力、Google Cloud Storage(GCS)存储数据,用1万小时语音数据低成本训练一个600M参数的文本到语音 (TTS) 模型 parler-tts-mini-v0.1。在这篇文章中,我会详细说明每个具体步骤,包括一些踩过的坑。 ...
在开发高质量的文本转语音(TTS)系统时,数据准备是至关重要的第一步。本文简要总结了从原始音频到最终训练数据集的转换过程、一些适合训练语音合成模型的开源语音数据库。 ...
基频提取 提取基频的方法,参考这个slides总结的不错: 基频统计 用librosa.pyin提取C2-C5之间的基频,提取速度一般,删除基频为nan的值,通过hierarchical softmax loss预测基频。 ...
https://github.com/google/lyra/blob/main/lyra/soundstream_encoder.cc
在游戏开发中,高质量的语音通知对于增强玩家体验至关重要。本文将分享如何利用IBM Watson的文本转语音服务生成基础音频,并通过Adobe Audition进行后期处理,制作出专业级的游戏通知音效。 ...