gemm

Here are 63 public repositories matching this topic...

ROCm / hipBLASLt

hipBLASLt is a library that provides general matrix-matrix operations with a flexible API and extends functionalities beyond a traditional BLAS library

machine-learning amd assembly matrix-multiplication blas hip gpu-computing gemm rocm radeon-open-compute

Updated May 28, 2024
Assembly

cp2k / dbcsr

Star

DBCSR: Distributed Block Compressed Sparse Row matrix library

hpc linear-algebra mpi cuda matrix-multiplication blas sparse-matrix cp2k gemm openmp-parallelization

Updated May 27, 2024
Fortran

OpenNMT / CTranslate2

Star

Fast inference engine for Transformer models

Updated May 25, 2024
C++

codingonion / awesome-cuda-tensorrt-fpga

Star

🔥🔥🔥 A collection of some awesome public NVIDIA CUDA, cuBLAS, cuDNN, TensorRT, AMD ROCm and FPGA projects.

Updated May 25, 2024

ROCm / Tensile

Star

Stretching GPU performance for GEMMs and tensor contractions.

python machine-learning amd gpu assembly opencl dnn matrix-multiplication neural-networks gpu-acceleration blas hip gpu-computing tensors tensor-contraction gemm radeon auto-tuning radeon-open-compute

Updated May 27, 2024
Python

DefTruth / CUDA-Learn-Notes

Star

🎉CUDA 笔记 / 大模型手撕CUDA / C++笔记，更新随缘: flash_attn、sgemm、sgemv、warp reduce、block reduce、dot product、elementwise、softmax、layernorm、rmsnorm、hist etc.

cuda cuda-kernels gemm softmax cuda-programming layernorm gemv elementwise rmsnorm flash-attention flash-attention-2 warp-reduce block-reduce

Updated May 19, 2024
Cuda

CNugteren / CLBlast

Sponsor

Star

Tuned OpenCL BLAS

gpu opencl matrix-multiplication blas gemm blas-libraries clblas

Updated May 27, 2024
C++

andylolu2 / simpleGEMM

Star

The simplest but fast implementation of matrix multiplication in CUDA.

cuda matrix-multiplication gemm

Updated May 12, 2024
Cuda

aredden / torch-cublas-hgemm

Star

PyTorch half precision gemm lib w/ fused optional bias + optional relu/gelu

cuda pytorch gemm float16

Updated Apr 16, 2024
Cuda

merledu / magma-si

Star

Matrix Accelerator Generator for GeMM Operations based on SIGMA Architecture in CHISEL HDL

accelerator matrix chisel matrix-multiplication chisel3 gemm chisel-generator

Updated Mar 21, 2024
Scala

eth-cscs / spla

Star

Specialized Parallel Linear Algebra, providing distributed GEMM functionality for specific matrix distributions with optional GPU acceleration.

linear-algebra mpi cuda gemm rocm

Updated Apr 26, 2024
C++

TensorBFS / CuTropicalGEMM.jl

Star

The fastest Tropical number matrix multiplication on GPU

cuda gemm tropical-algebra

Updated Feb 25, 2024
Julia

enp1s0 / ozIMMU

Star

FP64 equivalent GEMM via Int8 Tensor Cores using the Ozaki scheme

cuda gemm mixed-precision tensorcore tensorcores

Updated Jan 20, 2024
Cuda

The HPC toolbox: fused matrix multiplication, convolution, data-parallel strided tensor primitives, OpenMP facilities, SIMD, JIT Assembler, CPU detection, state-of-the-art vectorized BLAS for floats and integers