Crate oxicuda_quant

Expand description

§oxicuda-quant — GPU-Accelerated Quantization & Model Compression Engine

oxicuda-quant provides a comprehensive suite of post-training quantization (PTQ), quantization-aware training (QAT), pruning, knowledge distillation, and mixed-precision analysis tools.

§Feature overview

Category	Highlights
Schemes	MinMax INT4/8, NF4 (QLoRA), FP8 E4M3/E5M2, GPTQ, SmoothQuant
QAT	MinMax / MovingAvg / Histogram observers, FakeQuantize (STE)
Pruning	Magnitude unstructured, channel / filter / head structured
Distillation	KL / MSE / cosine response + feature distillation
Analysis	Layer sensitivity, compression metrics, mixed-precision policy
GPU kernels	PTX kernels for fake-quant, INT8 quant/dequant, NF4, pruning

§Quick start

let q = MinMaxQuantizer::int8_symmetric();
let data = vec![-1.0_f32, 0.0, 0.5, 1.0];
let params = q.calibrate(&data).unwrap();
let codes  = q.quantize(&data, &params).unwrap();
let deq    = q.dequantize(&codes, &params);

Re-exports§

pub use error::QuantError;
pub use error::QuantResult;

Modules§

analysis: Quantization Analysis Tools
distill: Knowledge Distillation
error: Error types for oxicuda-quant
pruning: Pruning
ptx_kernels: PTX kernel source strings for GPU-side quantization operations.
qat: Quantization-Aware Training (QAT)
scheme: Quantization Schemes

Crate oxicuda_quant

Crate oxicuda_quant Copy item path

§oxicuda-quant — GPU-Accelerated Quantization & Model Compression Engine

§Feature overview

§Quick start

Re-exports§

Modules§

Crate oxicuda_quant