File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change 11# deepx
22
3- deepx提出了一种超大规模自动分布式训推一体化的开放计算调度框架。
3+ deepx提出了一种原生分布式自动并行的训推一体化的深度学习框架。
4+
5+ deepx支持eager和auto两种模式
6+
7+ eager立即执行函数【已开发】
8+ auto则会经过计算图编译器优化器【todo】
9+
10+ + 该框架前端的python sdk提供接近pytorch的API 【已开发】,也容许其他语言的sdk接入【todo】;
11+ + 调度面:
12+ * 注册中心:收集当前已就绪的执行器的算子列表,收集算子时耗和空间占用信息【todo】
13+ * 计算图编译器优化器: fusion 算子,计算图节点消除,自动生成tensor拆分并行的计算子图并替代原节点【todo】
14+ * 执行调度器:数据并行,流水线并行(前向反向并行),模型并行。【todo】
15+ + 执行面:执行器负责低级的算子计算操作
16+ 以Op{args(args_grad),returns(returns_grad)|func forward,backward}为执行的核心单元
17+ 大部分Op都需要同时实现forward和backward
18+ 但也有部分只为推理设计的fusionOp可以需要实现forward。
19+ * cpu执行器:【已开发】
20+ * cuda执行器:【待开发】
421
5- + 该框架前端实现了支持多语言 SDK 调用;
6- + 调度面通过注册中心、元数据数据库、计算图编译器优化器和执行调度器等组件,实现高效的任务调度与管理;
7- + 执行面完成算存、算子引擎和网络通信的注册。
822
923通过严格遵循存算控分离的思想,框架能够在超大规模场景下实现自动分布式训练与推理的一体化,有效应对掉卡、掉节点等异常情况,提高计算资源的利用率和系统的可靠性。
1024
You can’t perform that action at this time.
0 commit comments