在开发高质量的文本转语音(TTS)系统时,数据准备是至关重要的第一步。本文简要总结了从原始音频到最终训练数据集的转换过程、一些适合训练语音合成模型的开源语音数据库。
数据准备概述
TTS系统的训练需要大量高质量、结构化的语音数据。为了获得这样的数据集,我们需要一套完整的数据处理流程,包括音频标准化、说话人分离、分段和转写等步骤。
Emilia-Pipe流程
Emilia-Pipe是一个专为TTS数据准备设计的处理管道,它包含以下关键步骤:
步骤 | 描述 |
---|---|
标准化 | 对音频进行规范化处理,确保音量和质量的一致性 |
源分离 | 将长音频处理为不含背景音乐(BGM)的纯语音 |
说话人分离 | 提取中等长度的单一说话人语音数据 |
基于VAD的精细分段 | 将语音切分为3-30秒的单一说话人片段 |
ASR | 获取语音片段的文本转写 |
过滤 | 通过质量控制获得最终处理后的数据集 |
Emilia预处理工具的源代码可在GitHub上获取: Amphion/preprocessors/Emilia
说话人分离技术
说话人分离(Speaker Diarization)是TTS数据准备中的关键步骤,它能识别“谁在什么时候说话”。这一技术对于从多人对话或播客等音频中提取单一说话人的语音片段至关重要。
更多关于说话人分离的技术详情可参考: Speaker Diarization 3.1
RTTM(Rich Transcription Time Marked)是语音处理中常用的标注格式,用于记录说话人转换信息。RTTM文件的各列含义如下:
列名 | 说明 |
---|---|
Type | 片段类型;应始终为SPEAKER |
File ID | 文件名;录音的基本名称(不含扩展名),如rec1_a |
Channel ID | 通道ID(从1开始索引);应始终为1 |
Turn Onset | 说话开始时间(从录音开始计算的秒数) |
Turn Duration | 说话持续时间(秒) |
Orthography Field | 应始终为 |
Speaker Type | 应始终为 |
Speaker Name | 说话人名称;在每个文件范围内应唯一 |
Confidence Score | 系统置信度(概率);应始终为 |
Signal Lookahead Time | 应始终为 |
实际应用效率
在实际生产环境中,使用GPU可以大幅提高处理效率。根据测试,使用一张A800 GPU进行批处理,可以在单天内处理约3000小时的音频数据。
中文开源语音数据
适合训练语音合成模型的普通话开源语音数据,
数据名称 | 小时数 | 说话人数 | 质量 |
---|---|---|---|
aidatatang_200zh | 200 | 600 | 中 |
aishell1 | 180 | 400 | 中 |
aishell3 | 85 | 218 | 中 |
primewords | 99 | 296 | 中 |
thchs30 | 34 | 40 | 中 |
magicdata | 755 | 1080 | 中 |
Emilia | 200,000+ | N/A | 低 |
WenetSpeech4TTS | 12,800 | N/A | 低 |
CommonVoice | N/A | N/A | 低 |
多语种开源语音数据
适合训练语音合成模型的英语和多语种开源语音数据,
数据名称 | 小时数 | 说话人数 | 质量 |
---|---|---|---|
LibriTTS-R | 585 | 2456 | 高 |
Hi-Fi TTS | 291 | 10 | 非常高 |
LibriHeavy | 60000+ | 7000+ | 16kHz |
MLS英语 | 44500 | 5490 | 16kHz |
MLS德语 | 1966 | 176 | 16kHz |
MLS荷兰语 | 1554 | 40 | 16kHz |
MLS法语 | 1076 | 142 | 16kHz |
MLS西班牙语 | 917 | 86 | 16kHz |
MLS意大利语 | 247 | 65 | 16kHz |
MLS葡萄牙语 | 160 | 42 | 16kHz |
MLS波兰语 | 103 | 11 | 16kHz |
用lhotse处理语音数据
lhotse是一个专门为语音处理设计的数据管理框架,提供了完整的音频数据处理流程。它的核心概念是基于manifest的数据表示方式:
数据表示
音频数据表示:通过RecordingSet/Recording存储音频元数据,包括音频源(sources)、采样率(sampling_rate)、样本数(num_samples)、时长(duration)和通道ID(channel_ids)。
标注数据表示:通过SupervisionSet/SupervisionSegment存储标注信息,包括起始时间(start)、持续时间(duration)、文本转写(transcript)、语言(language)、说话人(speaker)和性别(gender)。
数据处理流程
lhotse使用Cut概念作为音频片段的视图或指针,主要包括MonoCut、MixedCut、PaddingCut和CutSet等类型。处理流程如下:
将manifests加载为CutSet,可进行等长切分、多线程特征提取、末尾填充,并生成用于PyTorch的Sampler和DataLoader
特征提取支持多种提取器,如PyTorch fbank & MFCC、torchaudio、librosa等
特征归一化支持均值方差归一化(CMVN)、全局归一化、逐样本归一化和滑动窗口归一化
并行处理
lhotse支持多进程并行处理,示例代码如下:
from concurrent.futures import ProcessPoolExecutor
from lhotse import CutSet, Fbank, LilcomChunkyWriter
num_jobs = 8
with ProcessPoolExecutor(num_jobs) as ex:
cuts: CutSet = cuts.compute_and_store_features(
extractor=Fbank(),
storage=LilcomChunkyWriter('feats'),
executor=ex)
PyTorch集成
lhotse与PyTorch无缝集成:
CutSet可直接用作Dataset,支持噪声填充、声学上下文填充和动态批量大小
提供多种采样器,如SimpleCutSampler、BucketingSampler和CutPairsSampler,支持状态恢复,支持根据语音总时长生成动态batch大小
批处理I/O支持预计算模式(适合慢速I/O)和即时特征提取模式(适合数据增强)
命令行工具
lhotse的命令行工具挺好用,包括combine、copy、copy-feats以及多种cut操作如append、decompose、describe等,简化了数据处理流程:
lhotse combine
lhotse copy
lhotse copy-feats
lhotse cut append
lhotse cut decompose
lhotse cut describe
lhotse cut export-to-webdataset
lhotse cut mix-by-recording-id
lhotse cut mix-sequential
lhotse cut pad
lhotse cut simple
lhotse为许多开源数据集提供了prepare函数,能够轻松下载和处理这些标准语音数据集。
总结
TTS数据准备是一个多步骤的复杂过程,涉及音频处理、说话人分离和语音识别等多个技术领域。通过Emilia-Pipe等工具和完善的处理流程,我们可以将原始音频转化为高质量的TTS训练数据集,为构建自然、流畅的语音合成系统奠定基础。
对于希望开发TTS系统的团队,建议投入足够的资源在数据准备阶段,因为数据质量直接决定了最终模型的表现。