如何扩大模型规模:从系统角度看TPU上的大语言模型
训练大语言模型常常感觉像是一门炼金术,但理解和优化模型性能并不一定如此神秘。本书旨在揭开扩展语言模型的科学奥秘:TPU(和GPU)如何工作以及它们如何相互通信,大语言模型如何在实际硬件上运行,以及如何在训练和推理过程中并行化模型,使其在大规模环境下高效运行。如果你曾经想知道"训练这个大语言模型应该花费多少"或"我自己部署这个模型需要多少内存"或"什么是AllGather",我们希望本书对你有所帮助。
训练大语言模型常常感觉像是一门炼金术,但理解和优化模型性能并不一定如此神秘。本书旨在揭开扩展语言模型的科学奥秘:TPU(和GPU)如何工作以及它们如何相互通信,大语言模型如何在实际硬件上运行,以及如何在训练和推理过程中并行化模型,使其在大规模环境下高效运行。如果你曾经想知道"训练这个大语言模型应该花费多少"或"我自己部署这个模型需要多少内存"或"什么是AllGather",我们希望本书对你有所帮助。