GPT inference model. More...

#include <memory>
#include <vector>
#include <string>
#include <sstream>
#include <stdexcept>
#include <filesystem>
#include <format>
#include <random>
#include <chrono>
#include <algorithm>
#include <numeric>
#include <cstring>
#include <cmath>
#include <functional>
#include <stop_token>
import Serialization.PretrainedReader;
import Serialization.Mode;
import Serialization.OpenMode;
import Serialization.ModelArchive;
import Compute.ExecutionContextFactory;
import Compute.CpuMemoryResource;
import Compute.DeviceTypeTraits;
import Dnn.LanguageModel;
import Logging.Logger;
import Dnn.TensorDataType;
import Dnn.Tensor;
import Dnn.ITensor;
import Compute.Device;
import Compute.DeviceId;
import Dnn.TensorDataTypeTraits;
import Dnn.Component;
import Dnn.LanguageNetwork;
import Dnn.RuntimeMode;
import Compute.DeviceTypeTraits.Cpu;
import Dnn.Components.GptTransformer;
import Dnn.TensorTypes;
import Compute.DeviceType;

Classes
class	Mila::Dnn::GptModel< TDeviceType, TPrecision >
	GPT inference model. More...

Namespaces
namespace	Mila
	Mila main API namespace.
namespace	Mila::Dnn

Detailed Description

GPT inference model.

Inference-only wrapper around a loaded GptTransformer network. No training, no optimizer, no gradients.

Two loading paths:

fromPretrained() — third-party weights (e.g. HuggingFace GPT-2) via PretrainedModelReader. Primary path for Mila chat.

fromCheckpoint() — Mila-native artifact produced by GptTransformer::save() via ModelArchive. Round-trip path after training.

Classes

Namespaces

Detailed Description