array2d
diff --git a/‎deepxctl/.gitignore‎
Lines changed: 2 additions & 1 deletion b/‎deepxctl/.gitignore‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎doc/excuter/op-mem-cuda/list.md‎
Lines changed: 16 additions & 13 deletions b/‎doc/excuter/op-mem-cuda/list.md‎
Lines changed: 16 additions & 13 deletions
diff --git a/‎excuter/cpp-common/src/deepx/tensorfunc/io.hpp‎
Lines changed: 12 additions & 1 deletion b/‎excuter/cpp-common/src/deepx/tensorfunc/io.hpp‎
Lines changed: 12 additions & 1 deletion
diff --git a/‎excuter/op-mem-cuda/CMakeLists.txt‎
Lines changed: 4 additions & 1 deletion b/‎excuter/op-mem-cuda/CMakeLists.txt‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎excuter/op-mem-cuda/src/client/tfs.cpp‎
Lines changed: 29 additions & 4 deletions b/‎excuter/op-mem-cuda/src/client/tfs.cpp‎
Lines changed: 29 additions & 4 deletions
diff --git a/‎excuter/op-mem-cuda/src/deepx/mem/mem_cuda.hpp‎
Lines changed: 1 addition & 1 deletion b/‎excuter/op-mem-cuda/src/deepx/mem/mem_cuda.hpp‎
Lines changed: 1 addition & 1 deletion
@@ -1 +1,2 @@
-.idea
+.idea
+deepxctl
@@ -9,13 +9,6 @@
 | vecset |  none  | vecset(vector<any> value)->(vector<any> name) | shape = [3  4  5] | vecset(vector<any> value)->(vector<any> name) |
 | argset |  none  | argset(var<any> value)->(var<any> name) | var argname = argvalue | argset(var<any> value)->(var<any> name) |
 
-### io
-
-| Operation | Author | Func Def | Math Formula | IR Instruction |
-|-----------|--------|------------|--------------|----------------|
-| print | miaobyte | print(tensor<any> )->() | print(T1) | print(tensor<any> )->() |
-| print | miaobyte | print(tensor<any> , var<string> )->() | print(T1) | print(tensor<any> , var<string> )->() |
-
 ### tensorlife
 
 | Operation | Author | Func Def | Math Formula | IR Instruction |
@@ -25,13 +18,22 @@
 | newtensor |  none  | newtensor(var<string> shape)->(tensor<any> tensor1) | T1 = zeros(shape) | newtensor(var<string> shape)->(tensor<any> tensor1) |
 | deltensor |  none  | deltensor(tensor<any> t)->() | del T1 | deltensor(tensor<any> t)->() |
 
+### io
+
+| Operation | Author | Func Def | Math Formula | IR Instruction |
+|-----------|--------|------------|--------------|----------------|
+| save |  none  | save(tensor<any> t, var<string> path)->() | save(T1,path) | save(tensor<any> t, var<string> path)->() |
+| print | miaobyte | print(tensor<any> t)->() | print(T1) | print(tensor<any> t)->() |
+| print | miaobyte | print(tensor<any> t, var<string> format)->() | print(T1) | print(tensor<any> t, var<string> format)->() |
+| load |  none  | load(var<string> path)->() | load(path) | load(var<string> path)->() |
+
 ### init
 
 | Operation | Author | Func Def | Math Formula | IR Instruction |
 |-----------|--------|------------|--------------|----------------|
+| arange | miaobyte | arange(tensor<any> t, var<any> start, var<any> step)->() | arange(T1,start,step) | arange(tensor<any> t, var<any> start, var<any> step)->() |
 | normal | miaobyte | normal(tensor<any> t, var<any> mean, var<any> stddev, var<int32> seed)->() | normal(T1,mean,stddev,seed) | normal(tensor<any> t, var<any> mean, var<any> stddev, var<int32> seed)->() |
 | uniform | miaobyte | uniform(tensor<any> t, var<any> low, var<any> high, var<int32> seed)->() | uniform(T1,low,high,seed) | uniform(tensor<any> t, var<any> low, var<any> high, var<int32> seed)->() |
-| arange | miaobyte | arange(tensor<any> t, var<any> start, var<any> step)->() | arange(T1,start,step) | arange(tensor<any> t, var<any> start, var<any> step)->() |
 | constant | miaobyte | constant(tensor<any> t, var<any> value)->() | constant(T1) | constant(tensor<any> t, var<any> value)->() |
 
 ### elementwise
@@ -43,19 +45,21 @@
 | equalscalar | miaobyte | equalscalar(tensor<any> A, var<any> scalar, var<float64> epsilon)->(tensor<bool> mask) | mask=compare(T1, scalar) | equalscalar(tensor<any> A, var<any> scalar, var<float64> epsilon)->(tensor<bool> mask) |
 | min | miaobyte | min(tensor<any> A, tensor<any> B)->(tensor<any> C) | T3=min(T1, T2) | min(tensor<any> A, tensor<any> B)->(tensor<any> C) |
 | maxscalar | miaobyte | maxscalar(tensor<any> A, var<any> scalar)->(tensor<any> C) | T3=max(T1, scalar) | maxscalar(tensor<any> A, var<any> scalar)->(tensor<any> C) |
-| addscalar | miaobyte | addscalar(tensor<any> A, var<any> b)->(tensor<any> C) | T3=T1+scalar | addscalar(tensor<any> A, var<any> b)->(tensor<any> C) |
-| log | miaobyte | log(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) | T3=log(T1) | log(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) |
+| tan | miaobyte | tan(tensor<float64|float32> A)->(tensor<float64|float32> C) | T3=tan(T1) | tan(tensor<float64|float32> A)->(tensor<float64|float32> C) |
 | divscalar | miaobyte | divscalar(tensor<any> A, var<any> scalar)->(tensor<any> C) | T3=scalar/T1 | divscalar(tensor<any> A, var<any> scalar)->(tensor<any> C) |
 | sin | miaobyte | sin(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) | T3=sin(T1) | sin(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) |
-| tan | miaobyte | tan(tensor<float64|float32> A)->(tensor<float64|float32> C) | T3=tan(T1) | tan(tensor<float64|float32> A)->(tensor<float64|float32> C) |
 | add | cublas | add(tensor<any> a, tensor<any> b)->(tensor<any> c) | T3=T1+T2 | add(tensor<any> a, tensor<any> b)->(tensor<any> c) |
 | add | miaobyte | add(tensor<any> a, tensor<any> b)->(tensor<any> c) | T3=T1+T2 | add(tensor<any> a, tensor<any> b)->(tensor<any> c) |
 | greater | miaobyte | greater(tensor<any> A, tensor<any> B)->(tensor<bool> mask) | mask=compare(T1, T2) | greater(tensor<any> A, tensor<any> B)->(tensor<bool> mask) |
+| lessscalar | miaobyte | lessscalar(tensor<any> A, var<any> scalar)->(tensor<bool> mask) | mask=compare(T1, scalar) | lessscalar(tensor<any> A, var<any> scalar)->(tensor<bool> mask) |
+| cos | miaobyte | cos(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) | T3=cos(T1) | cos(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) |
 | less | miaobyte | less(tensor<any> A, tensor<any> B)->(tensor<bool> mask) | mask=compare(T1, T2) | less(tensor<any> A, tensor<any> B)->(tensor<bool> mask) |
 | powscalar | miaobyte | powscalar(tensor<float64|float32> A, var<float64|int32> scalar)->(tensor<float64|float32> C) | T3=pow(T1, scalar) | powscalar(tensor<float64|float32> A, var<float64|int32> scalar)->(tensor<float64|float32> C) |
 | minscalar | miaobyte | minscalar(tensor<any> A, var<any> scalar)->(tensor<any> C) | T3=min(T1, scalar) | minscalar(tensor<any> A, var<any> scalar)->(tensor<any> C) |
 | rdivscalar | miaobyte | rdivscalar(var<any> scalar, tensor<any> A)->(tensor<any> C) | T3=scalar/T1 | rdivscalar(var<any> scalar, tensor<any> A)->(tensor<any> C) |
 | rpowscalar | miaobyte | rpowscalar(var<float64|int32> scalar, tensor<float64|float32> A)->(tensor<float64|float32> C) | T3=pow(scalar, T1) | rpowscalar(var<float64|int32> scalar, tensor<float64|float32> A)->(tensor<float64|float32> C) |
+| log | miaobyte | log(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) | T3=log(T1) | log(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) |
+| addscalar | miaobyte | addscalar(tensor<any> A, var<any> b)->(tensor<any> C) | T3=T1+scalar | addscalar(tensor<any> A, var<any> b)->(tensor<any> C) |
 | sub | miaobyte | sub(tensor<any> A, tensor<any> B)->(tensor<any> C) | T3=T1-T2 | sub(tensor<any> A, tensor<any> B)->(tensor<any> C) |
 | sqrt | miaobyte | sqrt(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) | T3=sqrt(T1) | sqrt(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) |
 | subscalar | miaobyte | subscalar(tensor<any> A, var<any> b)->(tensor<any> C) | T3=T1-scalar | subscalar(tensor<any> A, var<any> b)->(tensor<any> C) |
@@ -67,8 +71,6 @@
 | pow | miaobyte | pow(tensor<float64|float32> A, tensor<float64|float32> B)->(tensor<float64|float32> C) | T3=pow(T1, T2) | pow(tensor<float64|float32> A, tensor<float64|float32> B)->(tensor<float64|float32> C) |
 | mul | miaobyte | mul(tensor<any> A, tensor<any> B)->(tensor<any> C) | T3=T1*T2 | mul(tensor<any> A, tensor<any> B)->(tensor<any> C) |
 | exp | miaobyte | exp(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) | T3=exp(T1) | exp(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) |
-| lessscalar | miaobyte | lessscalar(tensor<any> A, var<any> scalar)->(tensor<bool> mask) | mask=compare(T1, scalar) | lessscalar(tensor<any> A, var<any> scalar)->(tensor<bool> mask) |
-| cos | miaobyte | cos(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) | T3=cos(T1) | cos(tensor<float64|float32|float16|bfloat16> A)->(tensor<float64|float32|float16|bfloat16> C) |
 
 ### matmul
 
@@ -80,6 +82,7 @@
 
 | Operation | Author | Func Def | Math Formula | IR Instruction |
 |-----------|--------|------------|--------------|----------------|
+| gather | miaobyte | gather(tensor<any> A, tensor<int64|int32> indices, var<int32> axis)->(tensor<any> B) | T2 = T1.gather(indices=[1,2], axis=1) | gather(tensor<any> A, tensor<int64|int32> indices, var<int32> axis)->(tensor<any> B) |
 | broadcastTo | miaobyte | broadcastTo(tensor<any> A, vector<int32> new_shape)->(tensor<any> B) | T2 = T1.broadcastTo(new_shape=[4,3,2]) | broadcastTo(tensor<any> A, vector<int32> new_shape)->(tensor<any> B) |
 | concat | miaobyte | concat(listtensor<any> tensors, var<int32> dim)->(tensor<any> result) | Tresult = concat([T1, T2...], axis=3) | concat(listtensor<any> tensors, var<int32> dim)->(tensor<any> result) |
 | transpose | miaobyte | transpose(tensor<any> A, vector<int32> dim_order)->(tensor<any> C) | T2 = T1.transpose(dimorder=[1,0]) | transpose(tensor<any> A, vector<int32> dim_order)->(tensor<any> C) |
 
@@ -2,6 +2,7 @@
 #define DEEPX_TENSORFUNC_IO_HPP
 
 #include "deepx/tensor.hpp"
+#include "stdutil/fs.hpp"
 
 namespace deepx::tensorfunc{
 
@@ -21,7 +22,17 @@ namespace deepx::tensorfunc{
     template <typename T>
     pair<std::string,shared_ptr<Tensor<T>>> load(const std::string &path);
 
-    pair<std::string,Shape> loadShape(const std::string &path);
+    inline pair<std::string,Shape> loadShape(const std::string &path)
+    {
+        std::string shapepath = path + ".shape";
+        std::ifstream shape_fs(shapepath, std::ios::binary);
+        std::string shapedata((std::istreambuf_iterator<char>(shape_fs)), std::istreambuf_iterator<char>());
+        Shape shape;
+        shape.fromYaml(shapedata);
+        std::string filename = stdutil::filename(path);
+        std::string tensor_name = filename.substr(0, filename.find_last_of('.'));
+        return std::make_pair(tensor_name, shape);
+    }
 
 }
 
 
@@ -40,7 +40,10 @@ include_directories(${CUDAToolkit_INCLUDE_DIRS})
 set(CMAKE_CUDA_STANDARD 17)
 set(CMAKE_CUDA_ARCHITECTURES 75)  # 根据您的 GPU 计算能力进行调整
 set(CMAKE_CUDA_SEPARABLE_COMPILATION ON) #确保 CMake 能够正确识别 CUDA 文件并将其编译为目标
-set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} --ptxas-options=-v")
+
+# 设置 CUDA 编译选项
+# 是否开启PTX 汇编展示
+# set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} --ptxas-options=-v")
 
 find_package(yaml-cpp REQUIRED)
 
 
@@ -107,16 +107,30 @@ namespace deepx::tf
     {
         opfactory.add_tf(std::make_shared<Print<miaobyte>>(vector<Param>(
                                                                {
-                                                                   Param("", DataCategory::Tensor, Precision::Any),
+                                                                   Param("t", DataCategory::Tensor, Precision::Any),
                                                                }),
                                                            vector<Param>()));
 
         opfactory.add_tf(std::make_shared<Print<miaobyte>>(vector<Param>(
                                                                {
-                                                                   Param("", DataCategory::Tensor, Precision::Any),
-                                                                   Param("", DataCategory::Var, Precision::String),
+                                                                   Param("t", DataCategory::Tensor, Precision::Any),
+                                                                   Param("format", DataCategory::Var, Precision::String),
                                                                }),
                                                            vector<Param>()));
+
+        opfactory.add_tf(std::make_shared<Save>(vector<Param>(
+                                                               {
+                                                                   Param("t", DataCategory::Tensor, Precision::Any),
+                                                                   Param("path", DataCategory::Var, Precision::String),
+                                                               }),
+                                                           vector<Param>()));
+
+        opfactory.add_tf(std::make_shared<Load>(vector<Param>(
+                                                               {
+                                                                   Param("path", DataCategory::Var, Precision::String),
+                                                               }),
+                                                           vector<Param>())); 
+                                                           
     }
 
     // elementwise
@@ -422,7 +436,7 @@ namespace deepx::tf
                                                                   Param("C", DataCategory::Tensor, Precision::Any),
                                                               })));
     }
-    // // changeshape
+    // changeshape
     void register_changeshape(TfFactory &tffactory)
     {
         // reshape
@@ -465,6 +479,17 @@ namespace deepx::tf
                 {
                     Param("B", DataCategory::Tensor, Precision::Any),
                 })));
+        // gather
+        tffactory.add_tf(std::make_shared<Gather<miaobyte>>(vector<Param>(
+                {
+                    Param("A", DataCategory::Tensor, Precision::Any),
+                    Param("indices", DataCategory::Tensor, Precision::Int64|Precision::Int32),
+                    Param("axis", DataCategory::Var, Precision::Int32),
+                }), 
+            vector<Param>(
+                {
+                    Param("B", DataCategory::Tensor, Precision::Any),
+                })));
     }
    // reduce
      void register_reduce(TfFactory &tffactory)
 
@@ -52,7 +52,7 @@ namespace deepx::mem
             auto ptr = mem.at(name);
             auto result = make_shared<Tensor<void>>();
             result->shape = ptr->shape;
-            result->device = ptr->device;
+ 
             result->deleter = nullptr;
             result->copyer = nullptr;
             result->newer = nullptr;