分布式训练的自动并行策略 · OSDI '22

论文精读 数学优化
模型的分布式训练有三种策略:数据并行(Data Parallelism)、算子并行(Operator Parallelism)和流水线并行(Pipeline Parallelism)。本文要拆解的工作设计了编译器 Alpa,它能够将模型的训练从 inter-op 和 intra-op 两个角度进行(次)最优拆分,并映射到一组 GPU 上执行。

在主流的机器学习框架(TensorFlow、PyTorch、MXNet 等)中,模型通常被表征为数...


如何设计一个 DRL 调度器? · TPDS '21

工程实践 论文精读 数学优化
本文分析了一篇发表在 TPDS '21 的论文。该论文提出了一个基于深度强化学习和监督学习的、面向深度学习训练任务的调度器 DL2。作者设计了一个神经网络(作为 agent),它首先在线下基于 trace 数据被预训练,然后在线上通过深度强化学习在线更新自身参数。本文也全面回顾了强化学习理论。

面向深度学习训练任务(以下简称 DL 任务)的调度器,除了通用的调度平台(如 Kubernetes...


CPU 和 MEM 也很重要! · OSDI '22

工程实践 论文精读 数学优化
本文分析了一篇发表在 OSDI '22 上的论文。目前针对 DNN 训练任务的调度器通常将 GPU 视为占主导地位的资源,然后按 GPU 的占用比例分配 CPU 和 MEM。然而,不同的 DNN 对 CPU 和 MEM 的敏感程度是不同的,作者由此推出了调度器 Synergy——它对于每种 DNN 给出具体的 CPU 和 MEM 的分配方案,而非简单地按 GPU 的比例进行分配。

去年我曾分析过一篇发表在 OSDI '21 上的论文


图及相关算法 · 数据结构与算法 02

工程实践 源码分析
本文以算法竞赛的风格对图的相关操作代码进行分析。内容涉及图的深度优先遍历(求连通块、求拓扑排序、求欧拉回路)和广度优先遍历(求最短路径)。本文重点解析了如何将一个问题化归为图问题。

树和图是十分重要的数据结构。在树和图上的操作(如层序遍历、深度优先遍历、寻找最短路、给出拓扑排序、...


树与二叉树 · 数据结构与算法 01

工程实践 源码分析
本文以算法竞赛的风格对树和二叉树的相关操作代码进行分析。内容涉及树的创建、树的层序遍历、树的深度优先遍历等。本文试图让读者建立起树和递归之间的有机联系。

树和图是十分重要的数据结构。在树和图上的操作(如层序遍历、深度优先遍历、寻找最短路、给出拓扑排序、...


线性方程组、二次型与奇异值分解 · 线性代数 03

数学优化
本文首先分析了线性方程组及其求解办法,然后重点分析了二次型与奇异值分解相关的理论与实践。

对线性方程组的研究是促进线性代数这么学科诞生的重要原因。接下来,笔者首先给出线性方程组是否有解的理...


相似矩阵与特征值分解 · 线性代数 02

数学优化
本文将首先介绍如何理解向量的点积、叉乘,然后给出了正确理解相似矩阵和特征值分解的方法。

向量之间的运算不仅有相加和数乘,还有点积和叉乘。本文将首先介绍这两种运算的几何直观。随后,本文将深...


线性变换 · 线性代数 01

数学优化
本文将带领读者以正确的视角理解线性变换与矩阵。具体地,本文介绍了线性空间、线性变换与矩阵等概念并解释了它们之间的关系。

线性代数大约是本科阶段学习到的最神秘、最云里雾里的数学学科。总体上,线性代数提供了一套


矩阵微积分 · 微积分 03

数学优化
本文介绍了矩阵微积分的运算规则,并通过两个典型案例展示了其计算方式。

矩阵微积分是用矩阵和向量表示因变量每个成分关于自变量每个成分的偏导数。技巧是观察偏导的维度构成。<...


局部最优性与 KKT 条件 · 微积分 02

数学优化
本文介绍了局部最优性的必要条件以及两个最常用的约束优化算法:拉格朗日乘子法与KKT条件。

在这篇文章中,我将首先介绍局部最优性的一阶和二阶必要条件,然后给出两个最常用的约束优化算法——拉格...


基本概念 · 微积分 01

数学优化
本文将依次介绍微积分中的基本概念,包含导数、微分、泰勒展开式和梯度等。

微积分是高等数学中的重要内容。本文将会回顾其中的重要概念,例如导数、微分、梯度等。这些概念是绝大多...


熵 · 概率论、数理统计与信息论 04

数学优化
本文介绍了熵、联合熵、条件熵、互信息、交叉熵与 KL 散度等概念。

本文将依次介绍熵、联合熵、条件熵、互信息、交叉熵与 KL 散度等信息论中的概念。接下来的内容将针对...


切诺夫界 · 概率论、数理统计与信息论 02

数学优化
本文将回答概率论中的一个重要问题:对于给定的随机变量,和期望值相差给定距离的取值发生的概率是多少?对此,我们有三个结论,分别是马尔可夫不等式、切比雪夫不等式和切诺夫界。随着对随机变量的独立性的要求提高,这三个结论对于这个概率的估计也愈加准确。

对于给定的随机变量,和期望值相差给定距离的取值发生的概率是多少?为了回答这个问题,本文将依次介绍马...



Designed & written by Hailiang Zhao.
hliangzhao.cn. Copyright © 2021 - 2023 | 浙ICP备2021026965号-1
Manage