sapient_models/forward/
llama.rs

1//! Llama-family causal LM forward pass (Llama, Mistral, Qwen, SmolVLM text backbone).
2
3use std::collections::HashMap;
4
5use anyhow::Result;
6use sapient_core::Tensor;
7use sapient_hub::model_info::ModelInfo;
8
9use super::backend::{LlmBackend, LlmBackendDispatch, LlmBackendKind};
10use super::common::{embed_tokens, mean_pool_hidden, merge_heads, split_heads};
11use crate::weights::{
12    detect_weight_prefix, load_hf_weights, resolve_bias, resolve_lm_head, resolve_weight,
13    tie_word_embeddings_from_config,
14};
15
16/// Per-layer KV cache stored as concatenated 4-D tensors.
17#[derive(Debug, Default, Clone)]
18struct LayerCache {
19    keys: Option<Tensor>,
20    values: Option<Tensor>,
21    seq_len: usize,
22}
23
24/// Real Llama-architecture forward engine backed by safetensors weights.
25pub struct LlamaForward {
26    info: ModelInfo,
27    prefix: String,
28    weights: HashMap<String, Tensor>,
29    embed_key: String,
30    lm_head: Tensor,
31    cache: Vec<LayerCache>,
32    backend: LlmBackendDispatch,
33}
34
35impl LlamaForward {
36    pub fn from_files(info: ModelInfo, weight_paths: &[std::path::PathBuf]) -> Result<Self> {
37        Self::from_files_with_backend(info, weight_paths, LlmBackendKind::Auto)
38    }
39
40    pub fn from_files_with_backend(
41        info: ModelInfo,
42        weight_paths: &[std::path::PathBuf],
43        backend: LlmBackendKind,
44    ) -> Result<Self> {
45        let weights = load_hf_weights(weight_paths)?;
46        Self::from_weights_with_backend(info, weights, backend)
47    }
48
49    pub fn from_weights(info: ModelInfo, weights: HashMap<String, Tensor>) -> Result<Self> {
50        Self::from_weights_with_backend(info, weights, LlmBackendKind::Auto)
51    }
52
53    pub fn from_weights_with_backend(
54        info: ModelInfo,
55        weights: HashMap<String, Tensor>,
56        backend: LlmBackendKind,
57    ) -> Result<Self> {
58        let prefix = detect_weight_prefix(&weights);
59        let embed_key = format!("{prefix}embed_tokens.weight");
60        let tie = tie_word_embeddings_from_config(&info.raw);
61        let lm_head = resolve_lm_head(&weights, &prefix, tie, &embed_key)?.clone();
62        validate_core_shapes(&info, &weights, &embed_key, &lm_head)?;
63        let backend = LlmBackendDispatch::from_kind(backend)?;
64        tracing::debug!(
65            backend = backend.name(),
66            "initialized Llama forward backend"
67        );
68
69        let max_seq = info.max_position_embeddings;
70        let n_kv = info.num_key_value_heads;
71        let hd = info.head_dim;
72        let cache_shape = vec![1, n_kv, max_seq, hd];
73
74        let cache = (0..info.num_hidden_layers)
75            .map(|_| {
76                let keys = Tensor::zeros(cache_shape.clone(), sapient_core::DType::F32).unwrap();
77                let values = Tensor::zeros(cache_shape.clone(), sapient_core::DType::F32).unwrap();
78                LayerCache {
79                    keys: Some(keys),
80                    values: Some(values),
81                    seq_len: 0,
82                }
83            })
84            .collect();
85
86        Ok(Self {
87            cache,
88            info,
89            prefix,
90            embed_key,
91            lm_head,
92            weights,
93            backend,
94        })
95    }
96
97    pub fn reset_cache(&mut self) {
98        for layer in &mut self.cache {
99            layer.seq_len = 0;
100        }
101    }
102
103    /// Run forward on token ids and return logits for the last token.
104    pub fn forward_logits(&mut self, input_ids: &[u32], use_cache: bool) -> Result<Vec<f32>> {
105        let hidden = self.forward_hidden(input_ids, use_cache)?;
106        self.backend.logits_from_hidden(&hidden, &self.lm_head)
107    }
108
109    /// Mean-pooled hidden states for embedding models.
110    pub fn embed(&mut self, input_ids: &[u32]) -> Result<Vec<f32>> {
111        self.reset_cache();
112        let hidden = self.forward_hidden(input_ids, false)?;
113        mean_pool_hidden(&hidden)
114    }
115
116    fn forward_hidden(&mut self, input_ids: &[u32], use_cache: bool) -> Result<Tensor> {
117        let embed = self
118            .weights
119            .get(&self.embed_key)
120            .ok_or_else(|| anyhow::anyhow!("missing embedding weights at '{}'", self.embed_key))?;
121        let mut x = embed_tokens(embed, input_ids)?;
122
123        let start_pos = if use_cache {
124            self.cache.first().map(|l| l.seq_len).unwrap_or(0)
125        } else {
126            self.reset_cache();
127            0
128        };
129
130        let seq_len = input_ids.len();
131        let positions: Vec<usize> = (start_pos..start_pos + seq_len).collect();
132
133        for layer_idx in 0..self.info.num_hidden_layers {
134            x = self.forward_layer(x, layer_idx, &positions, use_cache)?;
135        }
136
137        let norm_w = resolve_weight(&self.weights, &self.prefix, "norm")?;
138        self.backend
139            .rms_norm(&x, norm_w, self.info.rms_norm_eps as f32)
140    }
141
142    fn forward_layer(
143        &mut self,
144        x: Tensor,
145        layer_idx: usize,
146        positions: &[usize],
147        use_cache: bool,
148    ) -> Result<Tensor> {
149        let pfx = format!("layers.{layer_idx}");
150        let eps = self.info.rms_norm_eps as f32;
151        let n_heads = self.info.num_attention_heads;
152        let n_kv = self.info.num_key_value_heads;
153        let head_dim = self.info.head_dim;
154
155        let attn_norm_w = resolve_weight(
156            &self.weights,
157            &self.prefix,
158            &format!("{pfx}.input_layernorm"),
159        )?;
160        let h = self.backend.rms_norm(&x, attn_norm_w, eps)?;
161
162        // Q/K/V projections. Llama/Mistral have no bias; Qwen2 has q/k/v biases —
163        // resolve_bias returns None when absent, so this is correct for both.
164        let q = self.linear(&h, &format!("{pfx}.self_attn.q_proj"))?;
165        let k = self.linear(&h, &format!("{pfx}.self_attn.k_proj"))?;
166        let v = self.linear(&h, &format!("{pfx}.self_attn.v_proj"))?;
167
168        let mut q = split_heads(&q, n_heads, head_dim)?;
169        let mut k = split_heads(&k, n_kv, head_dim)?;
170        let mut v = split_heads(&v, n_kv, head_dim)?;
171
172        q = self
173            .backend
174            .apply_rope_positions(&q, positions, self.info.rope_theta as f32)?;
175        k = self
176            .backend
177            .apply_rope_positions(&k, positions, self.info.rope_theta as f32)?;
178
179        let cache = &mut self.cache[layer_idx];
180        if use_cache {
181            let current_seq = cache.seq_len;
182            if let (Some(ck), Some(cv)) = (&mut cache.keys, &mut cache.values) {
183                k = crate::forward::common::update_kv_cache(ck, current_seq, &k)?;
184                v = crate::forward::common::update_kv_cache(cv, current_seq, &v)?;
185            }
186            cache.seq_len = current_seq + positions.len();
187        }
188
189        let attn = self.backend.gqa_attention(&q, &k, &v, n_kv, true)?;
190        let attn = merge_heads(&attn)?;
191        let o = self.linear(&attn, &format!("{pfx}.self_attn.o_proj"))?;
192        let x = self.backend.add(&x, &o)?;
193
194        let ffn_norm_w = resolve_weight(
195            &self.weights,
196            &self.prefix,
197            &format!("{pfx}.post_attention_layernorm"),
198        )?;
199        let h = self.backend.rms_norm(&x, ffn_norm_w, eps)?;
200
201        let gate = self.backend.linear_3d(
202            &h,
203            resolve_weight(&self.weights, &self.prefix, &format!("{pfx}.mlp.gate_proj"))?,
204        )?;
205        let up = self.backend.linear_3d(
206            &h,
207            resolve_weight(&self.weights, &self.prefix, &format!("{pfx}.mlp.up_proj"))?,
208        )?;
209        let gate = self.backend.silu(&gate)?;
210        let mid = self.backend.mul(&gate, &up)?;
211        let down = self.backend.linear_3d(
212            &mid,
213            resolve_weight(&self.weights, &self.prefix, &format!("{pfx}.mlp.down_proj"))?,
214        )?;
215        self.backend.add(&x, &down)
216    }
217
218    /// Linear projection that automatically applies a bias when the model has one
219    /// (Qwen2 q/k/v), and is a plain matmul otherwise (Llama, Mistral).
220    fn linear(&self, x: &Tensor, name: &str) -> Result<Tensor> {
221        let weight = resolve_weight(&self.weights, &self.prefix, name)?;
222        let bias = resolve_bias(&self.weights, &self.prefix, name);
223        self.backend.linear_3d_bias(x, weight, bias)
224    }
225}
226
227fn validate_core_shapes(
228    info: &ModelInfo,
229    weights: &HashMap<String, Tensor>,
230    embed_key: &str,
231    lm_head: &Tensor,
232) -> Result<()> {
233    let embed = weights
234        .get(embed_key)
235        .ok_or_else(|| anyhow::anyhow!("missing embedding weights at '{embed_key}'"))?;
236    let embed_dims = embed.shape().dims();
237    if embed_dims.len() != 2 || embed_dims[1] != info.hidden_size {
238        anyhow::bail!(
239            "embedding shape mismatch at '{embed_key}': expected [vocab, {}], got {:?}",
240            info.hidden_size,
241            embed_dims
242        );
243    }
244    if embed_dims[0] < info.vocab_size {
245        anyhow::bail!(
246            "embedding vocab rows {} are smaller than config vocab_size {}",
247            embed_dims[0],
248            info.vocab_size
249        );
250    }
251
252    let head_dims = lm_head.shape().dims();
253    if head_dims.len() != 2 || head_dims[1] != info.hidden_size {
254        anyhow::bail!(
255            "lm_head shape mismatch: expected [vocab, {}], got {:?}",
256            info.hidden_size,
257            head_dims
258        );
259    }
260
261    Ok(())
262}
sapient_models/forward/llama.rs

sapient_models/forward/
llama.rs