harn-vm 0.8.113

# ---------- SambaNova Cloud — fast RDU OpenAI-compatible inference -----------
# SambaNova serves large open weights (DeepSeek, Llama 4, Qwen) at high
# throughput on an OpenAI chat-completions surface with native tool calls.
# DeepSeek reasoning routes expose an inline thinking trace; Llama 4 routes
# are non-thinking multimodal. Catalog keys are `sambanova/<wire>`.

[[provider.sambanova]]
model_match = "*deepseek*"
native_tools = true
preferred_tool_format = "native"
structured_output = "native"
thinking_modes = ["enabled"]
text_tool_wire_format_supported = true
prefers_xml_scaffolding = false
prefers_markdown_scaffolding = true
structured_output_mode = "native_json"
supports_assistant_prefill = false
prefers_role_developer = false
prefers_xml_tools = false
thinking_block_style = "inline"

[[provider.sambanova]]
model_match = "*llama*"
native_tools = true
preferred_tool_format = "native"
structured_output = "native"
vision = true
vision_supported = true
text_tool_wire_format_supported = true
prefers_xml_scaffolding = false
prefers_markdown_scaffolding = true
structured_output_mode = "native_json"
supports_assistant_prefill = false
prefers_role_developer = false
prefers_xml_tools = false
thinking_block_style = "none"

# SambaNova-hosted GPT-OSS is the same Harmony model as cerebras/fireworks
# gpt-oss-120b. Placed BEFORE the catch-all `*` rule (first match wins) so it
# does not fall through to the non-reasoning default — without it
# `reasoning_required_for_tools` resolves OFF and the eval loop bills a
# noncommittal because gpt-oss calls tools INSIDE the chain-of-thought channel.
# Mirror the Cerebras gpt-oss row: NATIVE tools, reasoning-effort thinking
# {low, medium, high}, `reasoning_required_for_tools = true`. Must NOT carry a
# Qwen-style `auto_reasoning_overrides = "off"`.
[[provider.sambanova]]
model_match = "*gpt-oss*"
native_tools = true
preferred_tool_format = "native"
structured_output = "native"
thinking_modes = ["effort"]
reasoning_effort_supported = true
reasoning_effort_levels = ["low", "medium", "high"]
reasoning_required_for_tools = true
text_tool_wire_format_supported = true
prefers_xml_scaffolding = false
prefers_markdown_scaffolding = true
structured_output_mode = "native_json"
supports_assistant_prefill = false
prefers_role_developer = false
prefers_xml_tools = false
thinking_block_style = "reasoning_summary"
# SambaNova serves gpt-oss at DEGRADED quality (quantized). PROVEN during the
# 2026-06 meter-convergence effort: c-feat 0/5 and cpp-storage 0/5 on SambaNova
# vs 3/3 and 1/1 on the OpenRouter full-precision reference. The numbers looked
# like a capability collapse but were provider contamination. The precision
# canary MUST refuse to ledger a meter baseline on this route.
serving_precision = "degraded"

[[provider.sambanova]]
model_match = "*"
native_tools = true
preferred_tool_format = "native"
structured_output = "native"
text_tool_wire_format_supported = true
prefers_xml_scaffolding = false
prefers_markdown_scaffolding = true
structured_output_mode = "native_json"
supports_assistant_prefill = false
prefers_role_developer = false
prefers_xml_tools = false
thinking_block_style = "none"