LLM Infra | Welcome to train.sh

如何扩大模型规模：从系统角度看TPU上的大语言模型

June 28, 2025

训练大语言模型常常感觉像是一门炼金术，但理解和优化模型性能并不一定如此神秘。本书旨在揭开扩展语言模型的科学奥秘：TPU（和GPU）如何工作以及它们如何相互通信，大语言模型如何在实际硬件上运行，以及如何在训练和推理过程中并行化模型，使其在大规模环境下高效运行。如果你曾经想知道"训练这个大语言模型应该花费多少"或"我自己部署这个模型需要多少内存"或"什么是AllGather"，我们希望本书对你有所帮助。