tensorfuncispatcher:init,matmul

miaobyte · miaobyte · commit 280fad9a4123 · 2025-03-18T22:55:59.000+08:00
diff --git a/excuter/op-mem-cuda/src/deepx/tensorfunc/init_miaobyte.cu b/excuter/op-mem-cuda/src/deepx/tensorfunc/init_miaobyte.cu
@@ -17,6 +17,8 @@ namespace deepx::tensorfunc
         }
     }
 
+
+
     // 实现特化版本的成员函数
     void _constant_func<miaobyte, float>::func(Tensor<float> &tensor, const float value)
     {
@@ -59,4 +61,57 @@ namespace deepx::tensorfunc
             throw std::runtime_error("Failed to launch constant kernel");
         }
     }
+
+        // 添加kernel函数
+    template <typename T>
+    __global__ void kernel_arange(T *data, int size, T start, T step)
+    {
+        int idx = blockIdx.x * blockDim.x + threadIdx.x;
+        if (idx < size)
+        {
+            data[idx] = start + step * static_cast<T>(idx);
+        }
+    }
+
+    void _arange_func<miaobyte, float>::func(Tensor<float> &tensor, const float start, const float step)
+    {
+        int size = tensor.shape.size;
+        int blockSize = 256;
+        int numBlocks = (size + blockSize - 1) / blockSize;
+        
+        kernel_arange<<<numBlocks, blockSize>>>(tensor.data, size, start, step);
+        
+        cudaError_t err = cudaGetLastError();
+        if (err != cudaSuccess) {
+            throw std::runtime_error("Failed to launch arange kernel");
+        }
+    }
+
+    void _arange_func<miaobyte, double>::func(Tensor<double> &tensor, const double start, const double step)
+    {
+        int size = tensor.shape.size;
+        int blockSize = 256;
+        int numBlocks = (size + blockSize - 1) / blockSize;
+        
+        kernel_arange<<<numBlocks, blockSize>>>(tensor.data, size, start, step);
+        
+        cudaError_t err = cudaGetLastError();
+        if (err != cudaSuccess) {
+            throw std::runtime_error("Failed to launch arange kernel");
+        }
+    }
+
+    void _arange_func<miaobyte, __half>::func(Tensor<__half> &tensor, const __half start, const __half step)
+    {
+        int size = tensor.shape.size;
+        int blockSize = 256;
+        int numBlocks = (size + blockSize - 1) / blockSize;
+        
+        kernel_arange<<<numBlocks, blockSize>>>(tensor.data, size, start, step);
+        
+        cudaError_t err = cudaGetLastError();
+        if (err != cudaSuccess) {
+            throw std::runtime_error("Failed to launch arange kernel");
+        }
+    }
 }
diff --git a/excuter/op-mem-cuda/src/deepx/tensorfunc/init_miaobyte.hpp b/excuter/op-mem-cuda/src/deepx/tensorfunc/init_miaobyte.hpp
@@ -43,12 +43,32 @@ namespace deepx::tensorfunc
         }
     };
  
+    template <typename Author, typename T>
+    struct _arange_func {
+        static void func(Tensor<T> &tensor, const T start, const T step);
+    };
+
+    template <>
+    struct _arange_func<miaobyte, float> {
+        static void func(Tensor<float> &tensor, const float start, const float step);
+    };
+
+    template <>
+    struct _arange_func<miaobyte, double> {
+        static void func(Tensor<double> &tensor, const double start, const double step);
+    };
+
+    template <>
+    struct _arange_func<miaobyte, __half> {
+        static void func(Tensor<__half> &tensor, const __half start, const __half step);
+    };
+
+    // 使用实现结构体
     template <typename T>
     struct arangeDispatcher<miaobyte, T>
     {
-        static void arange(Tensor<T> &tensor, const T start, const T step)
-        {
-            //todo
+        static void arange(Tensor<T> &tensor, const T start, const T step) {
+            _arange_func<miaobyte, T>::func(tensor, start, step);
         }
     };
     
diff --git a/excuter/op-mem-cuda/src/deepx/tensorfunc/matmul_cublas.hpp b/excuter/op-mem-cuda/src/deepx/tensorfunc/matmul_cublas.hpp
@@ -173,7 +173,8 @@ namespace deepx::tensorfunc
                                                         B.data, n, stride_b,  // B在前
                                                         A.data, k, stride_a,  // A在后
                                                         &beta,
-                                                        C.data, n, stride_c); // 调整leading dimension
+                                                        C.data, n, stride_c,  // 调整leading dimension
+                                                        batch_size);          // 添加缺失的batch_size参数
 
                 if (status != CUBLAS_STATUS_SUCCESS)
                 {
@@ -218,19 +219,25 @@ namespace deepx::tensorfunc
 
             if (batch_size > 1)
             {
+                // 计算步长
+                int64_t stride_a = m * k;
+                int64_t stride_b = k * n;
+                int64_t stride_c = m * n;
+
                 auto status = cublasDgemmStridedBatched(handle.get(),
                                                         CUBLAS_OP_N,
                                                         CUBLAS_OP_N,
-                                                        m, n, k,
+                                                        n, m, k,      // 交换m,n处理行主序
                                                         &alpha,
-                                                        A.data, m,
-                                                        B.data, k,
+                                                        B.data, n, stride_b,  // B在前
+                                                        A.data, k, stride_a,  // A在后
                                                         &beta,
-                                                        C.data, m);
+                                                        C.data, n, stride_c,  // 输出维度对应调整
+                                                        batch_size);
 
                 if (status != CUBLAS_STATUS_SUCCESS)
                 {
-                    throw std::runtime_error("cublasDgemm failed");
+                    throw std::runtime_error("cublasDgemmStridedBatched failed");
                 }
             }
             else
@@ -251,5 +258,6 @@ namespace deepx::tensorfunc
                 }
             }
         };
-    }
+    };
+};
 #endif // DEEPX_TENSORFUNC_MATMUL_HPP
diff --git a/excuter/op-mem-cuda/test/tensorfunc/1_cublas_matmul.cpp b/excuter/op-mem-cuda/test/tensorfunc/1_cublas_matmul.cpp
@@ -0,0 +1,79 @@
+#include "deepx/tensorfunc/init_miaobyte.hpp"
+#include "deepx/tensor.hpp"
+#include "deepx/tensorfunc/new.hpp"
+#include "deepx/tensorfunc/print.hpp"
+#include "deepx/tensorfunc/matmul.hpp"
+#include "deepx/tensorfunc/matmul_cublas.hpp"
+
+using namespace deepx::tensorfunc;
+using namespace deepx;
+
+void test_matmul()
+{
+    // 创建矩阵 A (2x3)
+    Tensor<float> a = New<float>({2, 3}); 
+    arange<miaobyte,float>(a, 1.0f, 1.0f);  // 1,2,3
+                                            // 4,5,6
+    
+    // 创建矩阵 B (3x2)
+    Tensor<float> b = New<float>({3, 2});
+    arange<miaobyte,float>(b, 1.0f, 1.0f);  // 1,2
+                                            // 3,4
+                                            // 5,6
+    
+    // 创建结果矩阵 C (2x2) 
+    Tensor<float> c = New<float>({2, 2});
+    constant<miaobyte,float>(c, 0.0f);
+
+    // 打印输入矩阵
+    print(a, "%.2f");
+    print(b, "%.2f");
+
+    // 执行矩阵乘法 C = A × B
+    matmul<deepx::tensorfunc::cublas,float>(a, b, c);
+
+    // 打印结果
+    print(c, "%.2f");
+}
+
+void test_matmul_batch()
+{
+    // 创建矩阵 A 
+    Tensor<float> a = New<float>({2, 3,4,5}); 
+    arange<miaobyte,float>(a, 1.0f, 1.0f); 
+
+    // 创建矩阵 B 
+    Tensor<float> b = New<float>({2,3,5,6});
+    arange<miaobyte,float>(b, 1.0f, 1.0f);  
+
+    // 创建结果矩阵 C  
+    Tensor<float> c = New<float>({2, 3,4,6});
+    constant<miaobyte,float>(c, 0.0f);
+
+    // 打印输入矩阵
+    print(a, "%.2f");
+    print(b, "%.2f");
+
+    // 执行矩阵乘法 C = A × B
+    matmul<deepx::tensorfunc::cublas,float>(a, b, c);
+
+    // 打印结果
+    print(c, "%.2f");
+}
+
+int main(int argc, char **argv)
+{ 
+    int casei = 0;
+    if (argc > 1) {
+        casei = atoi(argv[1]);
+    }
+    switch (casei) {
+        case 0:
+            test_matmul();
+            break;
+        case 1:
+            test_matmul_batch();
+            break;  
+    }
+    return 0;
+}
diff --git a/excuter/op-mem-cuda/test/tensorfunc/CMakeLists.txt b/excuter/op-mem-cuda/test/tensorfunc/CMakeLists.txt
@@ -1,6 +1,8 @@
 add_executable(0_new 0_new.cpp)
-target_link_libraries(0_new deepx  CUDA::cudart)
+target_link_libraries(0_new deepx CUDA::cudart)
 
 add_executable(1_cublas_add 1_cublas_add.cpp)
-target_link_libraries(1_cublas_add deepx  CUDA::cudart)
+target_link_libraries(1_cublas_add deepx CUDA::cudart)
 
+add_executable(1_cublas_matmul 1_cublas_matmul.cpp)
+target_link_libraries(1_cublas_matmul deepx CUDA::cudart)