用Colab Pro+和Google Cloud Storage低成本训练600M参数的模型

介绍一个实用的小参数量模型训练方案:通过Google Colab Pro+提供计算能力、Google Cloud Storage(GCS)存储数据,用1万小时语音数据低成本训练一个600M参数的文本到语音 (TTS) 模型 parler-tts-mini-v0.1。在这篇文章中,我会详细说明每个具体步骤,包括一些踩过的坑。 ...

February 16, 2025 · 51 min · Binbin Shen

语音合成数据准备流程

在开发高质量的文本转语音(TTS)系统时,数据准备是至关重要的第一步。本文简要总结了从原始音频到最终训练数据集的转换过程、一些适合训练语音合成模型的开源语音数据库。 ...

October 17, 2024 · 21 min · Binbin Shen

Python分析基频和能量

基频提取 提取基频的方法,参考这个slides总结的不错: 基频统计 用librosa.pyin提取C2-C5之间的基频,提取速度一般,删除基频为nan的值,通过hierarchical softmax loss预测基频。 ...

August 30, 2024 · 6 min · Binbin Shen

SoundStream的C++实现

https://github.com/google/lyra/blob/main/lyra/soundstream_encoder.cc

December 15, 2022 · 1 min · Binbin Shen
用TTS生成游戏音库

用TTS生成游戏音库

在游戏开发中,高质量的语音通知对于增强玩家体验至关重要。本文将分享如何利用IBM Watson的文本转语音服务生成基础音频,并通过Adobe Audition进行后期处理,制作出专业级的游戏通知音效。 ...

April 29, 2015 · 8 min · Binbin Shen