| active_max_seq_len_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_decode_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_decode_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_decode_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_tensor_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_value_decode_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_value_decode_plan_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_value_partial_prefill_plan_cache_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_value_partial_prefill_plan_cache_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_value_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_value_prefill_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| att_value_prefill_plan_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| B_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| backward(const ITensor &input, const ITensor &output_grad, ITensor &input_grad) const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inline |
| backward_att_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| backward_k_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| backward_q_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| backward_v_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| build(const BuildContext &context) override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| buildCublasLtPlans() | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| buildCublasLtPlans_optimized() | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| C_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| cached_seq_len_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| clearGradients() noexcept | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | inlinevirtual |
| config_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| ConfigType typedef | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | |
| context_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| cublaslt_handle_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| CudaExecutionContext typedef | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | |
| CudaGqaOp(IExecutionContext *context, const GqaConfig &config) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inline |
| data_type | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | static |
| DataTypeTraits typedef | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | |
| datt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| datt_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| decode(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position) override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| decode_optimized(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| decodeImpl(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| device_type | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | static |
| dK_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dK_exp_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dK_exp_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dK_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dpreatt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dpreatt_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dq_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dq_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dV_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dV_exp_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dV_exp_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dV_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dVout_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| dVout_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| ensureKVCacheEnabled() const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| forward(const ITensor &input, ITensor &output) const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inline |
| getComputeTypes(cublasComputeType_t &compute_type, cudaDataType_t &scale_type) const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| getConfig() const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inline |
| getCudaDataType() const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| getDataType() const | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | inlinevirtual |
| getDeviceType() const | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | inlinevirtual |
| getName() const override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| getOperationType() const override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| getOrBuildPartialAVPlan(int chunk_len) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| getOrBuildPartialAVPlan_optimized(int chunk_len) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| getOrBuildPartialQKPlan(int chunk_len) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| getOrBuildPartialQKPlan_optimized(int chunk_len) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| getStateMemorySize() const override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| GS_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| HS_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| initializeKvCache(int batch_size, int max_seq_length) override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| initializeState(const BuildContext &build_context) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| initializeState_optimized(const BuildContext &build_context) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| is_built_ | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | protected |
| isBuilt() const | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | inlinevirtual |
| isEvalMode() const | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | inlinevirtual |
| k_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| k_exp_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| k_exp_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| k_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| k_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| kv_cache_enabled_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| MR typedef | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | |
| NativeType typedef | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | |
| NH_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| NKV_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| preatt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| preatt_decode_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| preatt_decode_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| preatt_decode_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| preatt_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| preatt_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| preatt_tensor_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| prefill(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position_offset) override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| prefill_chunk_size_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| prefill_optimized(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position_offset) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| prefillImpl(const ITensor &q, const ITensor &k, const ITensor &v, ITensor &output, int position_offset) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| q_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| q_permute_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| q_permute_tensor_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| q_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| qk_decode_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| qk_decode_plan_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| qk_partial_prefill_plan_cache_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| qk_partial_prefill_plan_cache_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| qk_prefill_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| qk_prefill_plan_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| qk_score_plan_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| raw(const std::shared_ptr< TensorType > &t) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivatestatic |
| resetKvCache() override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| setGradients(ITensor *, ITensor *) override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| setParameters(ITensor *, ITensor *) override | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlinevirtual |
| setState(const GqaState &state) | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inline |
| setTrainingMode(TrainingMode training_mode) | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | inlinevirtual |
| state_memory_size_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| T_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| TensorType typedef | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | |
| training_mode_ | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | protected |
| UnaryOperationBase typedef | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | |
| use_optimized_path_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_exp_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_exp_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_out_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_out_decode_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_out_decode_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_out_decode_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_out_opt_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_out_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_out_tensor_optimized_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| v_tensor_ | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | private |
| validateDecodeInputShape(const shape_t &s) const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| validateInputShape(const shape_t &s) const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| validatePrefillInputShape(const shape_t &s) const | Mila::Dnn::Compute::Cuda::Gqa::CudaGqaOp< TPrecision > | inlineprivate |
| ~IKvCacheLifecycle()=default | Mila::Dnn::Compute::IKvCacheLifecycle | virtual |
| ~IKvInference() override=default | Mila::Dnn::Compute::IKvInference | |
| ~Operation()=default | Mila::Dnn::Compute::Operation< DeviceType::Cuda, TPrecision > | virtual |