quantize_rs/onnx_utils/
quantization_nodes.rs

1//! Low-level builders for ONNX QDQ (Quantize-Dequantize) graph primitives.
2//!
3//! Each quantized weight becomes four graph elements:
4//!
5//! ```text
6//! Initializers:
7//!   "{name}_quantized"  — INT8 tensor, same shape as original
8//!   "{name}_scale"      — FP32 scalar
9//!   "{name}_zp"         — INT8 scalar
10//!
11//! Node:
12//!   DequantizeLinear
13//!     inputs:  ["{name}_quantized", "{name}_scale", "{name}_zp"]
14//!     outputs: ["{name}"]          ← original name; downstream graph untouched
15//! ```
16//!
17//! The DequantizeLinear op runs at inference time:
18//!   `output = (input - zero_point) × scale`
19//! which matches the dequantize formula already used in `QuantParams` and
20//! `QuantParamsInt4`.
21
22use crate::onnx_proto::{attribute_proto, tensor_proto, AttributeProto, NodeProto, TensorProto};
23
24// ---------------------------------------------------------------------------
25// Name generation
26// ---------------------------------------------------------------------------
27
28/// Canonical names for the four graph elements that replace one FP32 initializer.
29#[derive(Debug, Clone)]
30pub struct DequantLinearNames {
31    /// `"{original}_quantized"` — the INT8 weight tensor
32    pub quantized_name: String,
33    /// `"{original}_scale"` — FP32 scale scalar
34    pub scale_name: String,
35    /// `"{original}_zp"` — INT8 zero-point scalar
36    pub zp_name: String,
37    /// `"DequantizeLinear_{original}"` — the node name
38    pub node_name: String,
39    /// The original tensor name — becomes the DequantizeLinear *output*,
40    /// so every downstream node (Conv, MatMul, …) sees no change.
41    pub output_name: String,
42}
43
44impl DequantLinearNames {
45    /// Derive all four names from the original weight tensor name.
46    pub fn from_original(original_name: &str) -> Self {
47        Self {
48            quantized_name: format!("{}_quantized", original_name),
49            scale_name: format!("{}_scale", original_name),
50            zp_name: format!("{}_zp", original_name),
51            node_name: format!("DequantizeLinear_{}", original_name),
52            output_name: original_name.to_string(),
53        }
54    }
55}
56
57// ---------------------------------------------------------------------------
58// Node builder
59// ---------------------------------------------------------------------------
60
61/// Build a DequantizeLinear `NodeProto`.
62///
63/// ONNX spec (opset ≥ 10):
64///   inputs  = [x (INT8), x_scale (FP32), x_zero_point (INT8)]
65///   outputs = [y (FP32)]
66///   y = (x - x_zero_point) × x_scale
67///
68/// When `axis` is `Some(a)`, the `axis` attribute is set on the node,
69/// enabling per-channel dequantization (opset ≥ 13).
70pub fn build_dequantize_linear_node(names: &DequantLinearNames, axis: Option<usize>) -> NodeProto {
71    let attribute = match axis {
72        Some(a) => vec![AttributeProto {
73            name: "axis".to_string(),
74            r#type: attribute_proto::AttributeType::Int as i32,
75            i: a as i64,
76            ..Default::default()
77        }],
78        None => vec![],
79    };
80
81    NodeProto {
82        op_type: "DequantizeLinear".to_string(),
83        name: names.node_name.clone(),
84        input: vec![
85            names.quantized_name.clone(),
86            names.scale_name.clone(),
87            names.zp_name.clone(),
88        ],
89        output: vec![names.output_name.clone()],
90        attribute,
91        ..Default::default()
92    }
93}
94
95// ---------------------------------------------------------------------------
96// Initializer builders
97// ---------------------------------------------------------------------------
98
99/// INT8 tensor holding the quantized weight values.
100///
101/// Shape matches the original FP32 tensor exactly.  For INT4-quantized values
102/// (range [-8, 7]), the i8 bytes are stored directly — see the INT4 note in
103/// `graph_builder::apply_qdq_transform`.
104pub fn build_quantized_weight_tensor(
105    names: &DequantLinearNames,
106    values: &[i8],
107    shape: &[i64],
108) -> TensorProto {
109    TensorProto {
110        name: names.quantized_name.clone(),
111        data_type: tensor_proto::DataType::Int8 as i32,
112        dims: shape.to_vec(),
113        // Each i8 value → one byte.  Reinterpret cast, not value conversion.
114        raw_data: values.iter().map(|&v| v as u8).collect(),
115        ..Default::default()
116    }
117}
118
119/// FP32 scale tensor.
120///
121/// For per-tensor quantization, `scales` has one element and the tensor
122/// is rank-0 (scalar).  For per-channel, `scales` has one entry per
123/// channel and the tensor is rank-1 with shape `[num_channels]`.
124pub fn build_scale_tensor(names: &DequantLinearNames, scales: &[f32]) -> TensorProto {
125    let mut t = TensorProto {
126        name: names.scale_name.clone(),
127        data_type: tensor_proto::DataType::Float as i32,
128        float_data: scales.to_vec(),
129        ..Default::default()
130    };
131    if scales.len() > 1 {
132        // rank-1: [num_channels]
133        t.dims = vec![scales.len() as i64];
134    }
135    // For scalar (len == 1), dims remains empty (rank-0 scalar).
136    t
137}
138
139/// INT8 zero-point tensor.
140///
141/// For per-tensor, `zps` has one element → rank-0 scalar.
142/// For per-channel, `zps` has one per channel → rank-1 `[num_channels]`.
143pub fn build_zero_point_tensor(names: &DequantLinearNames, zps: &[i8]) -> TensorProto {
144    let mut t = TensorProto {
145        name: names.zp_name.clone(),
146        data_type: tensor_proto::DataType::Int8 as i32,
147        raw_data: zps.iter().map(|&v| v as u8).collect(),
148        ..Default::default()
149    };
150    if zps.len() > 1 {
151        // rank-1: [num_channels]
152        t.dims = vec![zps.len() as i64];
153    }
154    // For scalar (len == 1), dims remains empty (rank-0 scalar).
155    t
156}
157
158// ---------------------------------------------------------------------------
159// Tests
160// ---------------------------------------------------------------------------
161
162#[cfg(test)]
163mod tests {
164    use super::*;
165    use crate::onnx_proto::tensor_proto;
166
167    #[test]
168    fn test_names_from_simple_weight() {
169        let n = DequantLinearNames::from_original("conv1.weight");
170        assert_eq!(n.quantized_name, "conv1.weight_quantized");
171        assert_eq!(n.scale_name, "conv1.weight_scale");
172        assert_eq!(n.zp_name, "conv1.weight_zp");
173        assert_eq!(n.node_name, "DequantizeLinear_conv1.weight");
174        assert_eq!(n.output_name, "conv1.weight");
175    }
176
177    #[test]
178    fn test_names_from_dotted_path() {
179        // Real ResNet-18 weight names look like this
180        let n = DequantLinearNames::from_original("layer1.0.conv1.weight");
181        assert_eq!(n.quantized_name, "layer1.0.conv1.weight_quantized");
182        assert_eq!(n.output_name, "layer1.0.conv1.weight");
183    }
184
185    #[test]
186    fn test_dequantize_linear_node_inputs_outputs() {
187        let names = DequantLinearNames::from_original("fc.weight");
188        let node = build_dequantize_linear_node(&names, None);
189
190        assert_eq!(node.op_type, "DequantizeLinear");
191        assert_eq!(node.name, "DequantizeLinear_fc.weight");
192
193        assert_eq!(node.input.len(), 3);
194        assert_eq!(node.input[0], "fc.weight_quantized");
195        assert_eq!(node.input[1], "fc.weight_scale");
196        assert_eq!(node.input[2], "fc.weight_zp");
197
198        assert_eq!(node.output.len(), 1);
199        assert_eq!(node.output[0], "fc.weight");
200        assert!(node.attribute.is_empty());
201    }
202
203    #[test]
204    fn test_dequantize_linear_node_with_axis() {
205        let names = DequantLinearNames::from_original("conv.weight");
206        let node = build_dequantize_linear_node(&names, Some(0));
207
208        assert_eq!(node.attribute.len(), 1);
209        assert_eq!(node.attribute[0].name, "axis");
210        assert_eq!(node.attribute[0].i, 0);
211    }
212
213    #[test]
214    fn test_quantized_weight_tensor_shape_and_data() {
215        let names = DequantLinearNames::from_original("w");
216        let values = vec![1i8, -2, 3, -4, 5, 6];
217        let shape = vec![2i64, 3];
218        let t = build_quantized_weight_tensor(&names, &values, &shape);
219
220        assert_eq!(t.name, "w_quantized");
221        assert_eq!(t.data_type, tensor_proto::DataType::Int8 as i32);
222        assert_eq!(t.dims.len(), 2);
223        assert_eq!(t.dims[0], 2);
224        assert_eq!(t.dims[1], 3);
225
226        // Verify byte-level round-trip
227        let recovered: Vec<i8> = t.raw_data.iter().map(|&b| b as i8).collect();
228        assert_eq!(recovered, values);
229    }
230
231    #[test]
232    fn test_scale_tensor_scalar() {
233        let names = DequantLinearNames::from_original("w");
234        let t = build_scale_tensor(&names, &[0.003921]);
235
236        assert_eq!(t.name, "w_scale");
237        assert_eq!(t.data_type, tensor_proto::DataType::Float as i32);
238        assert_eq!(t.dims.len(), 0, "single scale must be rank-0 scalar");
239        assert!((t.float_data[0] - 0.003921).abs() < 1e-6);
240    }
241
242    #[test]
243    fn test_scale_tensor_per_channel() {
244        let names = DequantLinearNames::from_original("w");
245        let t = build_scale_tensor(&names, &[0.01, 0.02, 0.03]);
246
247        assert_eq!(t.dims.len(), 1);
248        assert_eq!(t.dims[0], 3);
249        assert_eq!(t.float_data.len(), 3);
250    }
251
252    #[test]
253    fn test_zero_point_tensor_scalar() {
254        let names = DequantLinearNames::from_original("w");
255        let t = build_zero_point_tensor(&names, &[-3]);
256
257        assert_eq!(t.name, "w_zp");
258        assert_eq!(t.data_type, tensor_proto::DataType::Int8 as i32);
259        assert_eq!(t.dims.len(), 0, "single zp must be rank-0 scalar");
260        assert_eq!(t.raw_data[0], (-3i8) as u8);
261    }
262
263    #[test]
264    fn test_zero_point_tensor_per_channel() {
265        let names = DequantLinearNames::from_original("w");
266        let t = build_zero_point_tensor(&names, &[-3, 0, 5]);
267
268        assert_eq!(t.dims.len(), 1);
269        assert_eq!(t.dims[0], 3);
270        assert_eq!(t.raw_data.len(), 3);
271    }
272
273    #[test]
274    fn test_int4_range_values_round_trip() {
275        // INT4 signed range: [-8, 7].  These arrive as i8; we store them as-is.
276        let names = DequantLinearNames::from_original("w");
277        let values = vec![-8i8, -1, 0, 7];
278        let shape = vec![4i64];
279        let t = build_quantized_weight_tensor(&names, &values, &shape);
280
281        let recovered: Vec<i8> = t.raw_data.iter().map(|&b| b as i8).collect();
282        assert_eq!(recovered, values);
283    }
284}
quantize_rs/onnx_utils/quantization_nodes.rs

quantize_rs/onnx_utils/
quantization_nodes.rs