Skip to main content

Module candle_executor

ferrum_models::executor

Module candle_executor

Expand description

Llama model executor using our custom Llama implementation.

Uses GenericKvCacheHandle (like Qwen3) with per-request cache_id. Supports CUDA decode runner for GPU acceleration.

Structs§

CandleModelExecutor: Llama model executor