quantize_matrix

scirs2_linalg::quantization::conversions

Function quantize_matrix

pub fn quantize_matrix<F>(
    matrix: &ArrayView2<'_, F>,
    bits: u8,
    method: QuantizationMethod,
) -> (QuantizedMatrix, QuantizationParams)where
    F: Float + Debug + AsPrimitive<f32> + FromPrimitive,
    f32: AsPrimitive<F>,

Expand description

Quantize a floating-point matrix to a lower precision representation

§Arguments

matrix - The input matrix to quantize
bits - The number of bits to use for quantization (typically 8)
method - The quantization method to use

§Returns

A tuple containing the quantized matrix and the quantization parameters

§Notes

For per-channel quantization, use quantize_matrix_per_channel instead.