array2d
diff --git a/‎doc/excuter/op-mem-ompsimd/list.md‎
Lines changed: 25 additions & 23 deletions b/‎doc/excuter/op-mem-ompsimd/list.md‎
Lines changed: 25 additions & 23 deletions
diff --git a/‎excuter/op-mem-ompsimd/src/deepx/op/changeshape.hpp‎
Lines changed: 2 additions & 2 deletions b/‎excuter/op-mem-ompsimd/src/deepx/op/changeshape.hpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎excuter/op-mem-ompsimd/src/deepx/op/opfactory.cpp‎
Lines changed: 48 additions & 76 deletions b/‎excuter/op-mem-ompsimd/src/deepx/op/opfactory.cpp‎
Lines changed: 48 additions & 76 deletions
diff --git a/‎front/py/deepx/nn/functional/changeshape.py‎
Lines changed: 26 additions & 16 deletions b/‎front/py/deepx/nn/functional/changeshape.py‎
Lines changed: 26 additions & 16 deletions
diff --git a/‎front/py/deepx/tensor/changeshape.py‎
Lines changed: 6 additions & 0 deletions b/‎front/py/deepx/tensor/changeshape.py‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎front/py/examples/2_ir/2_init.py‎ ‎front/py/examples/2_ir/1_init_zeroones.py‎front/py/examples/2_ir/2_init.py renamed to front/py/examples/2_ir/1_init_zeroones.py b/‎front/py/examples/2_ir/2_init.py‎ ‎front/py/examples/2_ir/1_init_zeroones.py‎front/py/examples/2_ir/2_init.py renamed to front/py/examples/2_ir/1_init_zeroones.py
diff --git a/‎…/py/examples/3_functional/2_broadcast.py‎ ‎front/py/examples/2_ir/2_broadcast.py‎front/py/examples/3_functional/2_broadcast.py renamed to front/py/examples/2_ir/2_broadcast.py b/‎…/py/examples/3_functional/2_broadcast.py‎ ‎front/py/examples/2_ir/2_broadcast.py‎front/py/examples/3_functional/2_broadcast.py renamed to front/py/examples/2_ir/2_broadcast.py
diff --git a/‎front/py/examples/2_ir/2_addshape.py‎ ‎…nt/py/examples/2_ir/2_elementwise_add.py‎front/py/examples/2_ir/2_addshape.py renamed to front/py/examples/2_ir/2_elementwise_add.py b/‎front/py/examples/2_ir/2_addshape.py‎ ‎…nt/py/examples/2_ir/2_elementwise_add.py‎front/py/examples/2_ir/2_addshape.py renamed to front/py/examples/2_ir/2_elementwise_add.py
diff --git a/‎front/py/examples/2_ir/2_operator.py‎ ‎…/examples/2_ir/2_elementwise_operator.py‎front/py/examples/2_ir/2_operator.py renamed to front/py/examples/2_ir/2_elementwise_operator.py b/‎front/py/examples/2_ir/2_operator.py‎ ‎…/examples/2_ir/2_elementwise_operator.py‎front/py/examples/2_ir/2_operator.py renamed to front/py/examples/2_ir/2_elementwise_operator.py
diff --git a/‎front/py/examples/2_ir/2_init.dot‎
Lines changed: 0 additions & 53 deletions b/‎front/py/examples/2_ir/2_init.dot‎
Lines changed: 0 additions & 53 deletions
@@ -4,32 +4,34 @@
 
 | Operation | Data Types | Math Formula | IR Instruction |
 |-----------|------------|--------------|----------------|
+| add_scalar | float32, float64 | T2 = T1 + 1.0 | add_scalar@float32 T1 1.0 -> T2 |
+| rdiv_scalar | float32, float64 | T3 =1 / T2 | rdiv_scalar@float32 1 T2 -> T3 |
+| constant | float32, float64 | T1 = full(shape, 0.0) | constant@float32 0.0 -> T1 |
+| uniform | float32, float64 | uniform(-1.0, 1.0,T1) | uniform@float32 -1.0 1.0 -> T1 |
+| mul_scalar | float32, float64 | T2 = T1 * 2.0 | mul_scalar@float32 T1 2.0 -> T2 |
+| deltensor | any | del T1 | deltensor@any T1 -> |
+| sub | float32, float64 | T3 = T1 - T2 | sub@int32 T1 T2 -> T3 |
 | sum | float32, float64 | T2 = sum(T1, dims=[1,2]) | sum@float32 T1 1 2 -> T2 |
-| matmul | float32, float64 | T3 = T1 @ T2 | matmul@float32 T1 T2 -> T3 |
-| concat | float32, float64 | T3 = concat([T1, T2], axis=3) | concat@float32 T1 T2 3 -> T3 |
-| pow_scalar | float32, float64 | T2 = T1 ^ 2.0 | pow_scalar@float32 T1 2.0 -> T2 |
-| pow | float32, float64 | T3 = T1 ^ T2 | pow@float32 T1 T2 -> T3 |
-| max_scalar | float32, float64 | T2 = max(T1, 0.0) | max_scalar@float32 T1 0.0 -> T2 |
-| exp | float32, float64 | T2 = exp(T1) | exp@float32 T1 -> T2 |
+| argset | float32, float64, int32 | shape = [3, 4, 5] | argset@int32 3 4 5 -> shape |
+| arange | float32, float64 | arange(start=0.0, step=1.0,T1) | arange@float32 0.0 1.0 -> T1 |
+| add | float32, float64 | T3 = T1 + T2 | add@int32 T1 T2 -> T3 |
+| copytensor | float32, float64, int16, int32, int64, int8 | T2 = T1.copy() | copytensor@float32 T1 -> T2 |
+| min | float32, float64 | C = min(A,B) | min@float32 A B -> C |
+| print | any |  | print@any -> |
+| newtensor | float32, float64, int16, int32, int64, int8 | T1 = zeros(shape) | newtensor@float32 shape -> T1 |
+| div | float32, float64 | T3 = T1 / T2 | div@float32 T1 T2 -> T3 |
+| div_scalar | float32, float64 | T2 = T1 / 2.0 | div_scalar@float32 T1 2.0 -> T2 |
+| reshape | any | T2 = reshape(T1, [2,3,4]) | reshape@float32 T1 2 3 4 -> T2 |
 | min_scalar | float32, float64 | B= min(A, 1.0) | min_scalar@float32 A 1.0 -> B |
 | sqrt | float32, float64 | T2 = sqrt(T1) | sqrt@float32 T1 -> T2 |
-| div | float32, float64 | T3 = T1 / T2 | div@float32 T1 T2 -> T3 |
 | mul | float32, float64 | T3 = T1 * T2 | mul@float32 T1 T2 -> T3 |
-| newtensor | float32, float64, int16, int32, int64, int8 | T1 = zeros(shape) | newtensor@float32 shape -> T1 |
-| print | any |  | print@any -> |
-| min | float32, float64 | C = min(A,B) | min@float32 A B -> C |
-| copytensor | float32, float64, int16, int32, int64, int8 | T2 = T1.copy() | copytensor@float32 T1 -> T2 |
-| clonetensor | float32, float64, int16, int32, int64, int8 | T2 = T1.clone() | clonetensor@float32 T1 -> T2 |
-| arange | float32, float64 | arange(start=0.0, step=1.0,T1) | arange@float32 0.0 1.0 -> T1 |
-| argset | float32, float64, int32 | shape = [3, 4, 5] | argset@int32 3 4 5 -> shape |
-| sub | float32, float64 | T3 = T1 - T2 | sub@int32 T1 T2 -> T3 |
-| mul_scalar | float32, float64 | T2 = T1 * 2.0 | mul_scalar@float32 T1 2.0 -> T2 |
-| uniform | float32, float64 | uniform(-1.0, 1.0,T1) | uniform@float32 -1.0 1.0 -> T1 |
-| add | float32, float64 | T3 = T1 + T2 | add@int32 T1 T2 -> T3 |
+| exp | float32, float64 | T2 = exp(T1) | exp@float32 T1 -> T2 |
+| max_scalar | float32, float64 | T2 = max(T1, 0.0) | max_scalar@float32 T1 0.0 -> T2 |
 | max | float32, float64 | T3 = max(T1,T2) | max@float32 T1 -> T2 |
-| constant | float32, float64 | T1 = full(shape, 0.0) | constant@float32 0.0 -> T1 |
-| rdiv_scalar | float32, float64 | T3 =1 / T2 | rdiv_scalar@float32 1 T2 -> T3 |
-| add_scalar | float32, float64 | T2 = T1 + 1.0 | add_scalar@float32 T1 1.0 -> T2 |
+| pow | float32, float64 | T3 = T1 ^ T2 | pow@float32 T1 T2 -> T3 |
+| pow_scalar | float32, float64 | T2 = T1 ^ 2.0 | pow_scalar@float32 T1 2.0 -> T2 |
+| matmul | float32, float64 | T3 = T1 @ T2 | matmul@float32 T1 T2 -> T3 |
+| clonetensor | float32, float64, int16, int32, int64, int8 | T2 = T1.clone() | clonetensor@float32 T1 -> T2 |
 | transpose | any | T2 = transpose(T1, dimorder=[1,0]) | transpose@float32 T1 1 0 -> T2 |
-| div_scalar | float32, float64 | T2 = T1 / 2.0 | div_scalar@float32 T1 2.0 -> T2 |
-| reshape | any | T2 = reshape(T1, [2,3,4]) | reshape@float32 T1 2 3 4 -> T2 |
+| expand | any | T2 = expand(T1, axis=[4,6,12]) | expand@float32 T1 4 6 12 -> T2 |
+| concat | float32 | T3 = concat([T1, T2], axis=3) | concat@float32 T1 T2 3 -> T3 |
@@ -230,9 +230,9 @@ namespace deepx::op
             auto input_grad = mem.gettensor<T>(this->args_grad[0]).get();
             auto output_grad = mem.gettensor<T>(this->returns_grad[0]).get();
             vector<int> target_shape = this->getvector<int32_t>( 1);
-            vector<int> axis = sumaxis(target_shape);
+            vector<int> axis = this->sumaxis(input_grad->shape.shape,target_shape);
             // sum,按指定维度求和
-            tensorfunc::sum(*output_grad, *input_grad, axis);
+            tensorfunc::sum(*output_grad,  axis,*input_grad);
         }
         void setexample() override
         {
 
@@ -8,9 +8,10 @@
 #include "deepx/op/print.hpp"
 #include "deepx/op/changeshape.hpp"
 namespace deepx::op
-{   
-    //new
-    void register_new(OpFactory &opfactory){
+{
+    // tensor
+    void register_lifecycle(OpFactory &opfactory)
+    {
         opfactory.add_op(NewTensor<int8_t>());
         opfactory.add_op(NewTensor<int16_t>());
         opfactory.add_op(NewTensor<int32_t>());
@@ -35,114 +36,84 @@ namespace deepx::op
         opfactory.add_op(ArgSet<int32_t>());
         opfactory.add_op(ArgSet<float>());
         opfactory.add_op(ArgSet<double>());
-    }
-    //del
-    void register_del(OpFactory &opfactory){
+
         opfactory.add_op(DelTensor<float>());
     }
-    //init
-    void register_uniform(OpFactory &opfactory){
+
+    // init
+    void register_init(OpFactory &opfactory)
+    {
         opfactory.add_op(Uniform<float>());
         opfactory.add_op(Uniform<double>());
-    }
-    void register_constant(OpFactory &opfactory){
+
         opfactory.add_op(Constant<float>());
         opfactory.add_op(Constant<double>());
-    }
-    void register_arange(OpFactory &opfactory){
+
         opfactory.add_op(Arange<float>());
         opfactory.add_op(Arange<double>());
     }
-    void register_init(OpFactory &opfactory){
-        register_uniform(opfactory);
-        register_constant(opfactory);
-        register_arange(opfactory);
-    }
-    //anytype
-    void register_anytype(OpFactory &opfactory){
+    // io
+    void register_util(OpFactory &opfactory)
+    {
         opfactory.add_op(Print<float>());
- 
-        opfactory.add_op(Transpose<float>());
- 
-        opfactory.add_op(Reshape<float>());
     }
-    //elementwise
-     void register_add(OpFactory &opfactory){
+
+    // elementwise
+    void register_elementwise(OpFactory &opfactory)
+    {
         opfactory.add_op(Add<float>());
         opfactory.add_op(Add<double>());
-    }
-    void register_add_scalar(OpFactory &opfactory){
+
         opfactory.add_op(Add_scalar<float>());
         opfactory.add_op(Add_scalar<double>());
-    }
-    void register_sub(OpFactory &opfactory){
+
         opfactory.add_op(Sub<float>());
         opfactory.add_op(Sub<double>());
-    }
 
-    void register_mul(OpFactory &opfactory){
         opfactory.add_op(Mul<float>());
         opfactory.add_op(Mul<double>());
-    }
-    void register_mul_scalar(OpFactory &opfactory){
+
         opfactory.add_op(Mul_scalar<float>());
         opfactory.add_op(Mul_scalar<double>());
-    }
-    void register_div(OpFactory &opfactory){
+
         opfactory.add_op(Div<float>());
         opfactory.add_op(Div<double>());
-    }   
-    void register_div_scalar(OpFactory &opfactory){
+
         opfactory.add_op(Div_scalar<float>());
         opfactory.add_op(Div_scalar<double>());
-    }
-    void register_rdiv_scalar(OpFactory &opfactory){
+
         opfactory.add_op(RDiv_scalar<float>());
         opfactory.add_op(RDiv_scalar<double>());
-    }
-    void register_sqrt(OpFactory &opfactory){
+
         opfactory.add_op(Sqrt<float>());
         opfactory.add_op(Sqrt<double>());
-    }
-    void register_exp(OpFactory &opfactory){
+
         opfactory.add_op(Exp<float>());
         opfactory.add_op(Exp<double>());
-    }
-    void register_pow(OpFactory &opfactory){
+
         opfactory.add_op(Pow<float>());
         opfactory.add_op(Pow<double>());
-    }
-    void register_pow_scalar(OpFactory &opfactory){
+
         opfactory.add_op(Pow_scalar<float>());
         opfactory.add_op(Pow_scalar<double>());
     }
-    void register_elementwise_op(OpFactory &opfactory){
-        register_add(opfactory);
-        register_add_scalar(opfactory);
-        register_sub(opfactory);
-        register_mul(opfactory);
-        register_mul_scalar(opfactory);
-        register_div(opfactory);
-        register_div_scalar(opfactory);
-        register_rdiv_scalar(opfactory);
-        register_sqrt(opfactory);
-        register_exp(opfactory);
-        register_pow(opfactory);
-        register_pow_scalar(opfactory);
-    }
-    //concat
-
-    void register_concat(OpFactory &opfactory){
-        opfactory.add_op(Concat<float>());
-        opfactory.add_op(Concat<double>());
-    }
-    //matmul
-    void register_matmul(OpFactory &opfactory){
+    // matmul
+    void register_matmul(OpFactory &opfactory)
+    {
         opfactory.add_op(MatMul<float>());
         opfactory.add_op(MatMul<double>());
     }
-    //reduce
-    void register_reduce(OpFactory &opfactory){
+    // changeshape
+    void register_changeshape(OpFactory &opfactory)
+    {
+        opfactory.add_op(Transpose<float>());
+        opfactory.add_op(Reshape<float>());
+        opfactory.add_op(Expand<float>());
+        opfactory.add_op(Concat<float>());
+    }
+    // reduce
+    void register_reduce(OpFactory &opfactory)
+    {
         opfactory.add_op(Max<float>());
         opfactory.add_op(Max<double>());
         opfactory.add_op(Max_scalar<float>());
@@ -154,13 +125,14 @@ namespace deepx::op
         opfactory.add_op(Sum<float>());
         opfactory.add_op(Sum<double>());
     }
-    int register_all(OpFactory &opfactory){
-        register_new(opfactory);
+    int register_all(OpFactory &opfactory)
+    {
+        register_lifecycle(opfactory);
         register_init(opfactory);
-        register_anytype(opfactory);
-        register_elementwise_op(opfactory);
-        register_concat(opfactory);
+        register_util(opfactory);
+        register_elementwise(opfactory);
         register_matmul(opfactory);
+        register_changeshape(opfactory);
         register_reduce(opfactory);
         return 0;
     }
 
@@ -77,25 +77,34 @@ def reshape(t:Tensor,shape:list[int],inplace:bool=False,out:Union[Tensor,str]=''
 
 def broadcast_shape(shape_a: tuple, shape_b: tuple) -> tuple:
     """计算两个形状的广播后形状"""
-    # 从右往左对齐维度
-    reversed_dims = zip(reversed(shape_a), reversed(shape_b))
-    new_shape = []
-    for dim_a, dim_b in reversed_dims:
-        if dim_a == 1:
-            new_dim = dim_b
-        elif dim_b == 1:
-            new_dim = dim_a
-        elif dim_a != dim_b:
-            raise ValueError(f"无法广播的形状：{shape_a} 和 {shape_b}")
+    # 获取形状的长度
+    len_a, len_b = len(shape_a), len(shape_b)
+    
+    # 创建结果形状
+    result_shape = []
+    
+    # 从右往左对齐并计算每个维度
+    for i in range(1, min(len_a, len_b) + 1):
+        dim_a = shape_a[-i]
+        dim_b = shape_b[-i]
+        
+        if dim_a == 1 or dim_b == 1:
+            # 广播规则：如果一个维度为1，取另一个维度的值
+            result_shape.insert(0, max(dim_a, dim_b))
+        elif dim_a == dim_b:
+            # 维度相同，保持不变
+            result_shape.insert(0, dim_a)
         else:
-            new_dim = dim_a
-        new_shape.append(new_dim)
+            # 维度不同且都不为1，无法广播
+            raise ValueError(f"无法广播的形状：{shape_a} 和 {shape_b}")
 
-    # 处理长度不同的形状
-    max_ndim = max(len(shape_a), len(shape_b))
-    new_shape += [1] * (max_ndim - len(new_shape))
+    # 添加较长形状中多出的前导维度
+    if len_a > len_b:
+        result_shape = list(shape_a[:len_a - len_b]) + result_shape
+    elif len_b > len_a:
+        result_shape = list(shape_b[:len_b - len_a]) + result_shape
 
-    return tuple(reversed(new_shape))
+    return tuple(result_shape)
 
 
 def unsqueeze(t:Tensor,dim:int)->Tensor:
@@ -112,6 +121,7 @@ def unsqueeze(t:Tensor,dim:int)->Tensor:
 
     return reshape(t, new_shape)
 
+OpNode.register("expand")
 def expand(t:Tensor,shape:list[int],out:Union[Tensor,str]='')->Tensor:
     outtensor=None
     if isinstance(out,str):
 
@@ -24,3 +24,9 @@ def reshape_(self,*shape)->Tensor:
     from deepx.nn.functional import reshape as reshape_func   
     result=reshape_func(self,shape,True)
     return result
+
+@tensor_method
+def expand(self,shape:tuple)->Tensor:
+    from deepx.nn.functional import expand as expand_func
+    result=expand_func(self,shape,False)
+    return result
Original file line number	Diff line number	Diff line change
`@@ -230,9 +230,9 @@ namespace deepx::op`
`230`	`230`	`auto input_grad = mem.gettensor<T>(this->args_grad[0]).get();`
`231`	`231`	`auto output_grad = mem.gettensor<T>(this->returns_grad[0]).get();`
`232`	`232`	`vector<int> target_shape = this->getvector<int32_t>( 1);`
`233`		`- vector<int> axis = sumaxis(target_shape);`
	`233`	`+ vector<int> axis = this->sumaxis(input_grad->shape.shape,target_shape);`
`234`	`234`	`// sum,按指定维度求和`
`235`		`- tensorfunc::sum(output_grad, input_grad, axis);`
	`235`	`+ tensorfunc::sum(output_grad, axis,input_grad);`
`236`	`236`	`}`
`237`	`237`	`void setexample() override`
`238`	`238`	`{`