array2d
diff --git a/‎doc/excuter/op-mem-cuda/list.md‎
Lines changed: 1 addition & 0 deletions b/‎doc/excuter/op-mem-cuda/list.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎doc/excuter/op-mem-ompsimd/list.md‎
Lines changed: 4 additions & 3 deletions b/‎doc/excuter/op-mem-ompsimd/list.md‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎excuter/op-mem-cuda/src/client/tfs.cpp‎
Lines changed: 19 additions & 6 deletions b/‎excuter/op-mem-cuda/src/client/tfs.cpp‎
Lines changed: 19 additions & 6 deletions
diff --git a/‎excuter/op-mem-cuda/src/deepx/tensorfunc/elementwise_miaobyte_basic.cu‎
Lines changed: 59 additions & 27 deletions b/‎excuter/op-mem-cuda/src/deepx/tensorfunc/elementwise_miaobyte_basic.cu‎
Lines changed: 59 additions & 27 deletions
@@ -14,4 +14,5 @@
 | newtensor |  none  | newtensor(vector<int32> shape)->(tensor<any> tensor1) | T1 = zeros(shape) | newtensor(vector<int32> shape)->(tensor<any> tensor1) |
 | newtensor |  none  | newtensor(var<string> shape)->(tensor<any> tensor1) | T1 = zeros(shape) | newtensor(var<string> shape)->(tensor<any> tensor1) |
 | vecset |  none  | vecset(vector<any> value)->(vector<any> name) | shape = [3  4  5] | vecset(vector<any> value)->(vector<any> name) |
+| sub | miaobyte | sub(tensor<any> A, tensor<any> B)->(tensor<any> C) | T3=T1-T2 | sub(tensor<any> A, tensor<any> B)->(tensor<any> C) |
 | argset |  none  | argset(var<any> value)->(var<any> name) | var argname = argvalue | argset(var<any> value)->(var<any> name) |
@@ -10,10 +10,11 @@
 | add | miaobyte | add(tensor<any> a, tensor<any> b)->(tensor<any> c) | T3=T1+T2 | add(tensor<any> a, tensor<any> b)->(tensor<any> c) |
 | uniform | miaobyte | uniform(tensor<any> t, var<any> low, var<any> high, var<int32> seed)->() | uniform(T1,low,high,seed) | uniform(tensor<any> t, var<any> low, var<any> high, var<int32> seed)->() |
 | arange | miaobyte | arange(tensor<any> t, var<any> start, var<any> step)->() | arange(T1,start,step) | arange(tensor<any> t, var<any> start, var<any> step)->() |
-| constant | miaobyte | constant(tensor<any> t, var<any> value)->() | print(T1) | constant(tensor<any> t, var<any> value)->() |
+| constant | miaobyte | constant(tensor<any> t, var<any> value)->() | constant(T1,value) | constant(tensor<any> t, var<any> value)->() |
 | print | miaobyte | print(tensor<any> )->() | print(T1) | print(tensor<any> )->() |
 | print | miaobyte | print(tensor<any> , var<string> )->() | print(T1) | print(tensor<any> , var<string> )->() |
-| newtensor |  none  | newtensor(vector<int32> shape)->(tensor<any> tensor1) | T1 = zeros(shape) | newtensor(vector<int32> shape)->(tensor<any> tensor1) |
-| newtensor |  none  | newtensor(var<string> shape)->(tensor<any> tensor1) | T1 = zeros(shape) | newtensor(var<string> shape)->(tensor<any> tensor1) |
+| newtensor |  none  | newtensor(vector<int32> shape)->(tensor<any> tensor1) | T1 =Tensor(shape=[...]) | newtensor(vector<int32> shape)->(tensor<any> tensor1) |
+| newtensor |  none  | newtensor(var<string> shape)->(tensor<any> tensor1) | T1 =Tensor(shape=[...]) | newtensor(var<string> shape)->(tensor<any> tensor1) |
 | vecset |  none  | vecset(vector<any> value)->(vector<any> name) | shape = [3  4  5] | vecset(vector<any> value)->(vector<any> name) |
+| sub | miaobyte | sub(tensor<any> a, tensor<any> b)->(tensor<any> c) | T3=T1-T2 | sub(tensor<any> a, tensor<any> b)->(tensor<any> c) |
 | argset |  none  | argset(var<any> value)->(var<any> name) | var argname = argvalue | argset(var<any> value)->(var<any> name) |
@@ -105,10 +105,15 @@ namespace deepx::tf
                                                              {
                                                                  Param("c", DataCategory::Tensor, Precision::Any),
                                                              })));
-
-        //     opfactory.add_op(Add_cblas<float>());
-        //     opfactory.add_op(Add_cblas<double>());
-
+        tffactory.add_tf(std::make_shared<Add<cublas>>(vector<Param>(
+                                                             {
+                                                                 Param("a", DataCategory::Tensor, Precision::Any),
+                                                                 Param("b", DataCategory::Tensor, Precision::Any),
+                                                             }),
+                                                         vector<Param>(
+                                                             {
+                                                                 Param("c", DataCategory::Tensor, Precision::Any),
+                                                             })));
         tffactory.add_tf(std::make_shared<Addscalar<miaobyte>>(vector<Param>(
                                                                    {
                                                                        Param("A", DataCategory::Tensor, Precision::Any),
@@ -118,9 +123,17 @@ namespace deepx::tf
                                                                    {
                                                                        Param("C", DataCategory::Tensor, Precision::Any),
                                                                    })));
-        //     opfactory.add_op(Sub_miaobyte<float>());
-        //     opfactory.add_op(Sub_miaobyte<double>());
 
+        tffactory.add_tf(std::make_shared<Sub<miaobyte>>(vector<Param>(
+                                                                   {
+                                                                       Param("A", DataCategory::Tensor, Precision::Any),
+                                                                       Param("B", DataCategory::Tensor, Precision::Any),
+                                                                   }),
+                                                               vector<Param>(
+                                                                   {
+                                                                       Param("C", DataCategory::Tensor, Precision::Any),
+                                                                   })));
+        
         //     opfactory.add_op(Sub_cblas<float>());
         //     opfactory.add_op(Sub_cblas<double>());
 
 
@@ -7,24 +7,24 @@
 namespace deepx::tensorfunc
 {
      template <typename T>
-    __global__ void add_kernel(const T* A, const T* B, T* C, int size) {
+    __global__ void add_kernel(const T* A, const T* B, T* C,const int size) {
         int idx = blockIdx.x * blockDim.x + threadIdx.x;
         if (idx < size) {
             C[idx] = A[idx] + B[idx];
         }
     }
-    template __global__ void add_kernel<double>(const double* A, const double* B, double* C, int size);
-    template __global__ void add_kernel<float>(const float* A, const float* B, float* C, int size);
-    template __global__ void add_kernel<half>(const half* A, const half* B, half* C, int size);
-    template __global__ void add_kernel<nv_bfloat16>(const nv_bfloat16* A, const nv_bfloat16* B, nv_bfloat16* C, int size);
-    template __global__ void add_kernel<int64_t>(const int64_t* A, const int64_t* B, int64_t* C, int size);
-    template __global__ void add_kernel<int32_t>(const int32_t* A, const int32_t* B, int32_t* C, int size);
-    template __global__ void add_kernel<int16_t>(const int16_t* A, const int16_t* B, int16_t* C, int size);
-    template __global__ void add_kernel<int8_t>(const int8_t* A, const int8_t* B, int8_t* C, int size);
+    template __global__ void add_kernel<double>(const double* A, const double* B, double* C,const int size);
+    template __global__ void add_kernel<float>(const float* A, const float* B, float* C,const int size);
+    template __global__ void add_kernel<half>(const half* A, const half* B, half* C,const int size);
+    template __global__ void add_kernel<nv_bfloat16>(const nv_bfloat16* A, const nv_bfloat16* B, nv_bfloat16* C,const int size);
+    template __global__ void add_kernel<int64_t>(const int64_t* A, const int64_t* B, int64_t* C,const int size);
+    template __global__ void add_kernel<int32_t>(const int32_t* A, const int32_t* B, int32_t* C,const int size);
+    template __global__ void add_kernel<int16_t>(const int16_t* A, const int16_t* B, int16_t* C,const int size);
+    template __global__ void add_kernel<int8_t>(const int8_t* A, const int8_t* B, int8_t* C,const int size);
 
 
     template <typename T>
-    void launch_add(int numBlocks, int blockSize,const T*  a, const  T* b,  T* c, int size)
+    void launch_add(int numBlocks, int blockSize,const T*  a, const  T* b,  T* c,const int size)
     {
          // 启动kernel
             add_kernel<<<numBlocks, blockSize>>>(a, b, c, size);
@@ -36,31 +36,31 @@ namespace deepx::tensorfunc
             }
     }
 
-    template void launch_add<double>(int numBlocks, int blockSize,const double*  a, const  double* b,  double* c, int size);
-    template void launch_add<float>(int numBlocks, int blockSize,const float*  a, const  float* b,  float* c, int size);
-    template void launch_add<half>(int numBlocks, int blockSize,const half*  a, const  half* b,  half* c, int size);
-    template void launch_add<nv_bfloat16>(int numBlocks, int blockSize,const nv_bfloat16*  a, const  nv_bfloat16* b,  nv_bfloat16* c, int size);
-    template void launch_add<int64_t>(int numBlocks, int blockSize,const int64_t*  a, const  int64_t* b,  int64_t* c, int size);
-    template void launch_add<int32_t>(int numBlocks, int blockSize, const int32_t*  a, const  int32_t* b,  int32_t* c, int size);
-    template void launch_add<int16_t>(int numBlocks, int blockSize, const int16_t*  a, const  int16_t* b,  int16_t* c, int size);
-    template void launch_add<int8_t>(int numBlocks, int blockSize, const int8_t*  a, const  int8_t* b,  int8_t* c, int size);
+    template void launch_add<double>(int numBlocks, int blockSize,const double*  a, const  double* b,  double* c,const int size);
+    template void launch_add<float>(int numBlocks, int blockSize,const float*  a, const  float* b,  float* c,const int size);
+    template void launch_add<half>(int numBlocks, int blockSize,const half*  a, const  half* b,  half* c,const int size);
+    template void launch_add<nv_bfloat16>(int numBlocks, int blockSize,const nv_bfloat16*  a, const  nv_bfloat16* b,  nv_bfloat16* c,const int size);
+    template void launch_add<int64_t>(int numBlocks, int blockSize,const int64_t*  a, const  int64_t* b,  int64_t* c,const int size);
+    template void launch_add<int32_t>(int numBlocks, int blockSize, const int32_t*  a, const  int32_t* b,  int32_t* c,const int size);
+    template void launch_add<int16_t>(int numBlocks, int blockSize, const int16_t*  a, const  int16_t* b,  int16_t* c,const int size);
+    template void launch_add<int8_t>(int numBlocks, int blockSize, const int8_t*  a, const  int8_t* b,  int8_t* c,const int size);
 
 
     template <typename T>
-    __global__ void addscalar_kernel(const T* A, const T scalar, T* C, int size) {
+    __global__ void addscalar_kernel(const T* A, const T scalar, T* C,const int size) {
         int idx = blockIdx.x * blockDim.x + threadIdx.x;
         if (idx < size) {
             C[idx] = A[idx] + scalar;
         }
     }   
-    template __global__ void addscalar_kernel<double>(const double* A, const double scalar, double* C, int size);   
-    template __global__ void addscalar_kernel<float>(const float* A, const float scalar, float* C, int size);
-    template __global__ void addscalar_kernel<half>(const half* A, const half scalar, half* C, int size);
-    template __global__ void addscalar_kernel<nv_bfloat16>(const nv_bfloat16* A, const nv_bfloat16 scalar, nv_bfloat16* C, int size);
-    template __global__ void addscalar_kernel<int64_t>(const int64_t* A, const int64_t scalar, int64_t* C, int size);
-    template __global__ void addscalar_kernel<int32_t>(const int32_t* A, const int32_t scalar, int32_t* C, int size);
-    template __global__ void addscalar_kernel<int16_t>(const int16_t* A, const int16_t scalar, int16_t* C, int size);
-    template __global__ void addscalar_kernel<int8_t>(const int8_t* A, const int8_t scalar, int8_t* C, int size);
+    template __global__ void addscalar_kernel<double>(const double* A, const double scalar, double* C,const int size);   
+    template __global__ void addscalar_kernel<float>(const float* A, const float scalar, float* C,const int size);
+    template __global__ void addscalar_kernel<half>(const half* A, const half scalar, half* C,const int size);
+    template __global__ void addscalar_kernel<nv_bfloat16>(const nv_bfloat16* A, const nv_bfloat16 scalar, nv_bfloat16* C,const int size);
+    template __global__ void addscalar_kernel<int64_t>(const int64_t* A, const int64_t scalar, int64_t* C,const int size);
+    template __global__ void addscalar_kernel<int32_t>(const int32_t* A, const int32_t scalar, int32_t* C,const int size);
+    template __global__ void addscalar_kernel<int16_t>(const int16_t* A, const int16_t scalar, int16_t* C,const int size);
+    template __global__ void addscalar_kernel<int8_t>(const int8_t* A, const int8_t scalar, int8_t* C,const int size);
 
     template <typename T>
     void launch_addscalar(const int numBlocks, const int blockSize, const T* a, const T scalar, T* c, const int size) {
@@ -74,6 +74,38 @@ namespace deepx::tensorfunc
     template void launch_addscalar<int32_t>(const int numBlocks, const int blockSize, const int32_t* a, const int32_t scalar, int32_t* c, const int size);
     template void launch_addscalar<int16_t>(const int numBlocks, const int blockSize, const int16_t* a, const int16_t scalar, int16_t* c, const int size);
     template void launch_addscalar<int8_t>(const int numBlocks, const int blockSize, const int8_t* a, const int8_t scalar, int8_t* c, const int size);
+
+
+    template <typename T>
+    __global__ void sub_kernel(const T* A, const T* B, T* C,const int size){
+        int idx = blockIdx.x * blockDim.x + threadIdx.x;
+        if (idx < size) {
+            C[idx] = A[idx] - B[idx];
+        }   
+    }
+    template __global__ void sub_kernel<double>(const double* A, const double* B, double* C, const int size);   
+    template __global__ void sub_kernel<float>(const float* A, const float* B, float* C, const int size);
+    template __global__ void sub_kernel<half>(const half* A, const half* B, half* C, const int size);
+    template __global__ void sub_kernel<nv_bfloat16>(const nv_bfloat16* A, const nv_bfloat16* B, nv_bfloat16* C, const int size);
+    template __global__ void sub_kernel<int64_t>(const int64_t* A, const int64_t* B, int64_t* C, const int size);
+    template __global__ void sub_kernel<int32_t>(const int32_t* A, const int32_t* B, int32_t* C, const int size);
+    template __global__ void sub_kernel<int16_t>(const int16_t* A, const int16_t* B, int16_t* C, const int size);
+    template __global__ void sub_kernel<int8_t>(const int8_t* A, const int8_t* B, int8_t* C, const int size);
+
+    template <typename T>
+    void launch_sub(const int numBlocks, const int blockSize, const T* a, const T* b, T* c, const int size) {
+        sub_kernel<<<numBlocks, blockSize>>>(a, b, c, size);
+    }
+    template void launch_sub<double>(const int numBlocks, const int blockSize, const double* a, const double* b, double* c, const int size);
+    template void launch_sub<float>(const int numBlocks, const int blockSize, const float* a, const float* b, float* c, const int size);
+    template void launch_sub<half>(const int numBlocks, const int blockSize, const half* a, const half* b, half* c, const int size);
+    template void launch_sub<nv_bfloat16>(const int numBlocks, const int blockSize, const nv_bfloat16* a, const nv_bfloat16* b, nv_bfloat16* c, const int size);
+    template void launch_sub<int64_t>(const int numBlocks, const int blockSize, const int64_t* a, const int64_t* b, int64_t* c, const int size);
+    template void launch_sub<int32_t>(const int numBlocks, const int blockSize, const int32_t* a, const int32_t* b, int32_t* c, const int size);
+    template void launch_sub<int16_t>(const int numBlocks, const int blockSize, const int16_t* a, const int16_t* b, int16_t* c, const int size);
+    template void launch_sub<int8_t>(const int numBlocks, const int blockSize, const int8_t* a, const int8_t* b, int8_t* c, const int size);    
+    
+    
 }
 
 #endif // DEEPX_TENSORFUNC_ELEMENTWISE_MIAO_BYTE_BASIC_CUH