This is the complete list of members for Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >, including all inherited members.

active_max_seq_len_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_decode_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_decode_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_decode_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_tensor_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_value_decode_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_value_decode_plan_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_value_partial_prefill_plan_cache_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_value_partial_prefill_plan_cache_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_value_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_value_prefill_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
att_value_prefill_plan_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
B_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
backward(const ITensor &input, const ITensor &output_grad, ITensor &input_grad) const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inline
backward_att_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
backward_k_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
backward_q_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
backward_v_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
build(const BuildContext &context) override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
buildCublasLtPlans()	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
buildCublasLtPlans_optimized()	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
C_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
cached_seq_len_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
clearGradients() noexcept	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	inlinevirtual
config_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
ConfigType typedef	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >
context_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
cublaslt_handle_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
CudaExecutionContext typedef	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >
CudaGqaOp(IExecutionContext *context, const GqaConfig &config)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inline
data_type	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	static
DataTypeTraits typedef	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >
datt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
datt_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
decode(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position) override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
decode_optimized(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
decodeImpl(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
device_type	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	static
dK_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dK_exp_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dK_exp_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dK_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dpreatt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dpreatt_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dq_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dq_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dV_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dV_exp_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dV_exp_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dV_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dVout_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
dVout_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
ensureKVCacheEnabled() const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
forward(const ITensor &input, ITensor &output) const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inline
getComputeTypes(cublasComputeType_t &compute_type, cudaDataType_t &scale_type) const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
getConfig() const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inline
getCudaDataType() const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
getDataType() const	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	inlinevirtual
getDeviceType() const	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	inlinevirtual
getName() const override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
getOperationType() const override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
getOrBuildPartialAVPlan(int chunk_len)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
getOrBuildPartialAVPlan_optimized(int chunk_len)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
getOrBuildPartialQKPlan(int chunk_len)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
getOrBuildPartialQKPlan_optimized(int chunk_len)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
getStateMemorySize() const override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
GS_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
HS_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
initializeKvCache(int batch_size, int max_seq_length) override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
initializeState(const BuildContext &build_context)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
initializeState_optimized(const BuildContext &build_context)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
is_built_	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	protected
isBuilt() const	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	inlinevirtual
isEvalMode() const	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	inlinevirtual
k_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
k_exp_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
k_exp_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
k_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
k_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
kv_cache_enabled_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
MR typedef	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >
NativeType typedef	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >
NH_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
NKV_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
preatt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
preatt_decode_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
preatt_decode_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
preatt_decode_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
preatt_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
preatt_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
preatt_tensor_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
prefill(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position_offset) override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
prefill_chunk_size_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
prefill_optimized(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position_offset)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
prefillImpl(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position_offset)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
q_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
q_permute_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
q_permute_tensor_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
q_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
qk_decode_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
qk_decode_plan_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
qk_partial_prefill_plan_cache_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
qk_partial_prefill_plan_cache_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
qk_prefill_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
qk_prefill_plan_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
qk_score_plan_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
raw(const std::shared_ptr< TensorType > &t)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivatestatic
resetKvCache() override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
setGradients(ITensor , ITensor ) override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
setParameters(ITensor , ITensor ) override	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlinevirtual
setState(const GqaState &state)	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inline
setTrainingMode(TrainingMode training_mode)	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	inlinevirtual
state_memory_size_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
T_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
TensorType typedef	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >
training_mode_	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	protected
UnaryOperationBase typedef	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >
use_optimized_path_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_exp_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_exp_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_out_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_out_decode_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_out_decode_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_out_decode_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_out_opt_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_out_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_out_tensor_optimized_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
v_tensor_	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	private
validateDecodeInputShape(const shape_t &s) const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
validateInputShape(const shape_t &s) const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
validatePrefillInputShape(const shape_t &s) const	Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision >	inlineprivate
~IKvCacheLifecycle()=default	Mila::Dnn::Compute::IKvCacheLifecycle	virtual
~IKvInference() override=default	Mila::Dnn::Compute::IKvInference
~Operation()=default	Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision >	virtual