Data Engineering

从huggingface增量下载大量数据

最近Emilia数据集又发布了11.4万小时语音数据YODAS,之前我已经下载了10万小时数据,由于之前处理数据后没有保存原始仓库,导致无法直接git pull更新。

语音合成数据准备流程

在开发高质量的文本转语音(TTS)系统时,数据准备是至关重要的第一步。本文简要总结了从原始音频到最终训练数据集的转换过程、一些适合训练语音合成模型的开源语音数据库。

尝试LitData和WebDataset对比

抽空测试了一下Lightning新出的LitData,并和WebDataset进行了简单比较,目前LitData还处于初步阶段。

在macOS下自动挂载NAS Samba分区和Ubuntu远程分区

我想在macOS下更方便地操作NAS硬盘和Ubuntu台式机的文件。其中NAS是机械硬盘RAID6,写入速度在600MB/s左右,读取速度在1000MB/s左右,提供了Samba服务。Ubuntu是NVMe SSD组建的RAID0,本地读取可以达到28GB/s左右,提供了ssh登录。