分布式训练的自动并行策略 · OSDI '22
- 模型的分布式训练有三种策略:数据并行(Data Parallelism)、算子并行(Operator Parallelism)和流水线并行(Pipeline Parallelism)。本文要拆解的工作设计了编译器 Alpa,它能够将模型的训练从 inter-op 和 intra-op 两个角度进行(次)最优拆分,并映射到一组 GPU 上执行。
在主流的机器学习框架(TensorFlow、PyTorch、MXNet 等)中,模型通常被表征为数...