Rust

用LitData Viewer查看LitData分片内容

最近从WebDataset切换到LitData,LitData是PyTorch Lightning同公司开发的,刚发布的时候我就尝试过,当时bug比较多就放弃了。经过一年多的迭代,已经非常强大。而且它和PyTorch Lightning框架解耦,可以单独在任意训练/推理pipeline中使用。支持读取多种shards:LitData格式、HF Parquet格式、MosaicML格式,还可以通过StreamingRawDataset直接在原始数据上实现流式。