Mila/Math_8Reduction_8h_source.html

#pragma once


#include <cuda_runtime.h>

#include <cstddef>


namespace Mila::Dnn::Compute::Cuda::Kernels

{

    template<typename T>

    void launch_sum_reduction_kernel(

        const T* src,

        float* d_partial_sums,

        size_t count,

        int grid,

        int block,

        size_t shared_bytes,

        cudaStream_t stream );


    template<typename T>

    void launch_mean_reduction_kernel(

        const T* src,

        float* d_partial_means,

        size_t count,

        int grid,

        int block,

        size_t shared_bytes,

        cudaStream_t stream );


    template<typename T>

    void launch_max_reduction_kernel(

        const T* src,

        T* d_partial_maxes,

        size_t count,

        int grid,

        int block,

        size_t shared_bytes,

        cudaStream_t stream );


    template<typename T>

    void launch_min_reduction_kernel(

        const T* src,

        T* d_partial_mins,

        size_t count,

        int grid,

        int block,

        size_t shared_bytes,

        cudaStream_t stream );

}

Mila::Dnn::Compute::Cuda::Kernels
Definition Math.Elementwise.h:16

Mila::Dnn::Compute::Cuda::Kernels::launch_max_reduction_kernel
void launch_max_reduction_kernel(const T *src, T *d_partial_maxes, size_t count, int grid, int block, size_t shared_bytes, cudaStream_t stream)
Launch max reduction kernel producing per-block partial maxima.

Mila::Dnn::Compute::Cuda::Kernels::launch_mean_reduction_kernel
void launch_mean_reduction_kernel(const T *src, float *d_partial_means, size_t count, int grid, int block, size_t shared_bytes, cudaStream_t stream)
Launch mean reduction kernel producing per-block partial sums (float).

Mila::Dnn::Compute::Cuda::Kernels::launch_sum_reduction_kernel
void launch_sum_reduction_kernel(const T *src, float *d_partial_sums, size_t count, int grid, int block, size_t shared_bytes, cudaStream_t stream)
Launch sum reduction kernel producing per-block partial sums (float).

Mila::Dnn::Compute::Cuda::Kernels::launch_min_reduction_kernel
void launch_min_reduction_kernel(const T *src, T *d_partial_mins, size_t count, int grid, int block, size_t shared_bytes, cudaStream_t stream)
Launch min reduction kernel producing per-block partial minima.