Skip to content

Commit 737db87

Browse files
committed
doc:
1 parent 5bf4976 commit 737db87

1 file changed

Lines changed: 18 additions & 4 deletions

File tree

README.md

Lines changed: 18 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,10 +1,24 @@
11
# deepx
22

3-
deepx提出了一种超大规模自动分布式训推一体化的开放计算调度框架。
3+
deepx提出了一种原生分布式自动并行的训推一体化的深度学习框架。
4+
5+
deepx支持eager和auto两种模式
6+
7+
eager立即执行函数【已开发】
8+
auto则会经过计算图编译器优化器【todo】
9+
10+
+ 该框架前端的python sdk提供接近pytorch的API 【已开发】,也容许其他语言的sdk接入【todo】;
11+
+ 调度面:
12+
* 注册中心:收集当前已就绪的执行器的算子列表,收集算子时耗和空间占用信息【todo】
13+
* 计算图编译器优化器:fusion算子,计算图节点消除,自动生成tensor拆分并行的计算子图并替代原节点【todo】
14+
* 执行调度器:数据并行,流水线并行(前向反向并行),模型并行。【todo】
15+
+ 执行面:执行器负责低级的算子计算操作
16+
以Op{args(args_grad),returns(returns_grad)|func forward,backward}为执行的核心单元
17+
大部分Op都需要同时实现forward和backward
18+
但也有部分只为推理设计的fusionOp可以需要实现forward。
19+
* cpu执行器:【已开发】
20+
* cuda执行器:【待开发】
421

5-
+ 该框架前端实现了支持多语言 SDK 调用;
6-
+ 调度面通过注册中心、元数据数据库、计算图编译器优化器和执行调度器等组件,实现高效的任务调度与管理;
7-
+ 执行面完成算存、算子引擎和网络通信的注册。
822

923
通过严格遵循存算控分离的思想,框架能够在超大规模场景下实现自动分布式训练与推理的一体化,有效应对掉卡、掉节点等异常情况,提高计算资源的利用率和系统的可靠性。
1024

0 commit comments

Comments
 (0)