harn_vm/llm/
model_test.rs

1use std::time::Instant;
2
3use serde::Serialize;
4
5use super::api::{
6    vm_call_llm_full_streaming, LlmApiMode, LlmCallOptions, LlmRoutePolicy, OutputFormat,
7    ThinkingConfig,
8};
9use crate::value::{VmError, VmValue};
10
11const SMOKE_TEST_MAX_TOKENS: i64 = 32;
12
13#[derive(Clone, Debug, PartialEq, Eq)]
14pub struct ModelSmokeTestOptions {
15    pub model: String,
16    pub provider: Option<String>,
17    pub prompt: String,
18}
19
20#[derive(Clone, Debug, PartialEq, Serialize)]
21pub struct ModelSmokeTestResult {
22    pub model_id: String,
23    pub provider: String,
24    pub latency_ms: u64,
25    #[serde(skip_serializing_if = "Option::is_none")]
26    pub first_token_ms: Option<u64>,
27    pub input_tokens: i64,
28    pub output_tokens: i64,
29    pub estimated_cost_usd: f64,
30}
31
32pub async fn run_model_smoke_test(
33    options: ModelSmokeTestOptions,
34) -> Result<ModelSmokeTestResult, String> {
35    super::provider::register_default_providers();
36
37    let resolved = crate::llm_config::resolve_model_info(&options.model);
38    let model_id = resolved.id;
39    let provider = options
40        .provider
41        .as_deref()
42        .map(str::trim)
43        .filter(|provider| !provider.is_empty())
44        .map(str::to_string)
45        .unwrap_or(resolved.provider);
46    let api_key = super::helpers::resolve_api_key(&provider).map_err(vm_error_message)?;
47
48    if let Some(def) = crate::llm_config::provider_config(&provider) {
49        if super::supports_model_readiness_probe(&def) {
50            let readiness =
51                super::probe_openai_compatible_model(&provider, &model_id, &api_key).await;
52            if readiness.category == "model_missing" || readiness.category == "invalid_url" {
53                return Err(readiness.message);
54            }
55        }
56    }
57
58    let opts = LlmCallOptions {
59        provider: provider.clone(),
60        model: model_id.clone(),
61        api_key,
62        api_mode: LlmApiMode::ChatCompletions,
63        route_policy: LlmRoutePolicy::Manual,
64        fallback_chain: Vec::new(),
65        route_fallbacks: Vec::new(),
66        routing_decision: None,
67        routing_policy: None,
68        session_id: None,
69        reminders: None,
70        reminder_lifecycle: Vec::new(),
71        messages: vec![serde_json::json!({
72            "role": "user",
73            "content": options.prompt,
74        })],
75        system: None,
76        transcript_summary: None,
77        max_tokens: SMOKE_TEST_MAX_TOKENS,
78        temperature: None,
79        top_p: None,
80        top_k: None,
81        logprobs: false,
82        top_logprobs: None,
83        stop: None,
84        seed: None,
85        frequency_penalty: None,
86        presence_penalty: None,
87        fast: false,
88        output_format: OutputFormat::Text,
89        response_format: None,
90        json_schema: None,
91        output_schema: None,
92        output_validation: None,
93        schema_stream_abort: false,
94        thinking: ThinkingConfig::Disabled,
95        anthropic_beta_features: Vec::new(),
96        vision: false,
97        tools: None,
98        native_tools: None,
99        provider_tools: Vec::new(),
100        tool_choice: None,
101        tool_search: None,
102        cache: false,
103        timeout: None,
104        idle_timeout: None,
105        stream: true,
106        provider_overrides: None,
107        previous_response_id: None,
108        store: None,
109        background: None,
110        truncation: None,
111        compact: None,
112        include: None,
113        max_tool_calls: None,
114        budget: None,
115        prefill: None,
116        structural_experiment: None,
117        applied_structural_experiment: None,
118    };
119
120    let (delta_tx, mut delta_rx) = tokio::sync::mpsc::unbounded_channel::<String>();
121    let started = Instant::now();
122    let first_delta = tokio::spawn(async move { delta_rx.recv().await.map(|_| started.elapsed()) });
123    let result = vm_call_llm_full_streaming(&opts, delta_tx)
124        .await
125        .map_err(vm_error_message);
126    let latency_ms = duration_ms(started.elapsed());
127    let first_token_ms = first_delta.await.ok().flatten().map(duration_ms);
128    let result = result?;
129
130    Ok(ModelSmokeTestResult {
131        model_id: result.model.clone(),
132        provider: result.provider.clone(),
133        latency_ms,
134        first_token_ms,
135        input_tokens: result.input_tokens,
136        output_tokens: result.output_tokens,
137        estimated_cost_usd: super::calculate_cost_for_provider(
138            &result.provider,
139            &result.model,
140            result.input_tokens,
141            result.output_tokens,
142        ),
143    })
144}
145
146fn duration_ms(duration: std::time::Duration) -> u64 {
147    u64::try_from(duration.as_millis()).unwrap_or(u64::MAX)
148}
149
150fn vm_error_message(error: VmError) -> String {
151    match error {
152        VmError::CategorizedError { message, .. } => message,
153        VmError::Thrown(VmValue::String(message)) => message.to_string(),
154        VmError::Thrown(VmValue::Dict(dict)) => dict
155            .get("message")
156            .map(VmValue::display)
157            .unwrap_or_else(|| VmError::Thrown(VmValue::Dict(dict)).to_string()),
158        other => other.to_string(),
159    }
160}
161
162#[cfg(test)]
163mod tests {
164    use super::{run_model_smoke_test, ModelSmokeTestOptions};
165
166    #[tokio::test]
167    async fn mock_provider_smoke_test_reports_timing_tokens_and_cost() {
168        crate::llm::reset_llm_state();
169        let result = run_model_smoke_test(ModelSmokeTestOptions {
170            model: "mock".to_string(),
171            provider: Some("mock".to_string()),
172            prompt: "ping".to_string(),
173        })
174        .await
175        .expect("mock provider smoke test should not require network");
176
177        assert_eq!(result.model_id, "mock");
178        assert_eq!(result.provider, "mock");
179        assert_eq!(result.input_tokens, 4);
180        assert_eq!(result.output_tokens, 30);
181        assert_eq!(result.estimated_cost_usd, 0.0);
182        assert!(result.first_token_ms.is_some());
183    }
184}
harn_vm/llm/model_test.rs

harn_vm/llm/
model_test.rs