Expand description
See llama-cpp-2 for a documented and safe API.
Structs§
- _IO_
FILE - _IO_
codecvt - _IO_
marker - _IO_
wide_ data - ggml_
backend - ggml_
backend_ buffer - ggml_
backend_ buffer_ type - ggml_
backend_ dev_ caps - ggml_
backend_ dev_ props - ggml_
backend_ device - ggml_
backend_ event - ggml_
backend_ feature - ggml_
backend_ graph_ copy - ggml_
backend_ reg - ggml_
backend_ sched - ggml_
bf16_ t - ggml_
cgraph - ggml_
context - ggml_
cplan - ggml_
gallocr - ggml_
init_ params - ggml_
object - ggml_
opt_ context - ggml_
opt_ dataset - ggml_
opt_ optimizer_ params - ggml_
opt_ optimizer_ params__ bindgen_ ty_ 1 - ggml_
opt_ params - ggml_
opt_ result - ggml_
tallocr - ggml_
tensor - ggml_
threadpool - ggml_
threadpool_ params - ggml_
type_ traits - ggml_
type_ traits_ cpu - llama_
adapter_ lora - llama_
batch - llama_
chat_ message - llama_
context - llama_
context_ params - llama_
kv_ cache - llama_
logit_ bias - llama_
memory_ i - llama_
model - llama_
model_ kv_ override - llama_
model_ params - llama_
model_ quantize_ params - llama_
model_ tensor_ buft_ override - llama_
opt_ params - llama_
perf_ context_ data - llama_
perf_ sampler_ data - llama_
sampler - llama_
sampler_ chain_ params - llama_
sampler_ i - llama_
token_ data - llama_
token_ data_ array - llama_
vocab
Constants§
- GGML_
BACKEND_ BUFFER_ USAGE_ ANY - GGML_
BACKEND_ BUFFER_ USAGE_ COMPUTE - GGML_
BACKEND_ BUFFER_ USAGE_ WEIGHTS - GGML_
BACKEND_ DEVICE_ TYPE_ ACCEL - GGML_
BACKEND_ DEVICE_ TYPE_ CPU - GGML_
BACKEND_ DEVICE_ TYPE_ GPU - GGML_
FTYPE_ ALL_ F32 - GGML_
FTYPE_ MOSTLY_ BF16 - GGML_
FTYPE_ MOSTLY_ F16 - GGML_
FTYPE_ MOSTLY_ IQ1_ M - GGML_
FTYPE_ MOSTLY_ IQ1_ S - GGML_
FTYPE_ MOSTLY_ IQ2_ S - GGML_
FTYPE_ MOSTLY_ IQ2_ XS - GGML_
FTYPE_ MOSTLY_ IQ2_ XXS - GGML_
FTYPE_ MOSTLY_ IQ3_ S - GGML_
FTYPE_ MOSTLY_ IQ3_ XXS - GGML_
FTYPE_ MOSTLY_ IQ4_ NL - GGML_
FTYPE_ MOSTLY_ IQ4_ XS - GGML_
FTYPE_ MOSTLY_ Q2_ K - GGML_
FTYPE_ MOSTLY_ Q3_ K - GGML_
FTYPE_ MOSTLY_ Q4_ 0 - GGML_
FTYPE_ MOSTLY_ Q4_ 1 - GGML_
FTYPE_ MOSTLY_ Q4_ 1_ SOME_ F16 - GGML_
FTYPE_ MOSTLY_ Q4_ K - GGML_
FTYPE_ MOSTLY_ Q5_ 0 - GGML_
FTYPE_ MOSTLY_ Q5_ 1 - GGML_
FTYPE_ MOSTLY_ Q5_ K - GGML_
FTYPE_ MOSTLY_ Q6_ K - GGML_
FTYPE_ MOSTLY_ Q8_ 0 - GGML_
FTYPE_ UNKNOWN - GGML_
LOG_ LEVEL_ CONT - GGML_
LOG_ LEVEL_ DEBUG - GGML_
LOG_ LEVEL_ ERROR - GGML_
LOG_ LEVEL_ INFO - GGML_
LOG_ LEVEL_ NONE - GGML_
LOG_ LEVEL_ WARN - GGML_
NUMA_ STRATEGY_ COUNT - GGML_
NUMA_ STRATEGY_ DISABLED - GGML_
NUMA_ STRATEGY_ DISTRIBUTE - GGML_
NUMA_ STRATEGY_ ISOLATE - GGML_
NUMA_ STRATEGY_ MIRROR - GGML_
NUMA_ STRATEGY_ NUMACTL - GGML_
OBJECT_ TYPE_ GRAPH - GGML_
OBJECT_ TYPE_ TENSOR - GGML_
OBJECT_ TYPE_ WORK_ BUFFER - GGML_
OPT_ BUILD_ TYPE_ FORWARD - GGML_
OPT_ BUILD_ TYPE_ GRAD - GGML_
OPT_ BUILD_ TYPE_ OPT - GGML_
OPT_ LOSS_ TYPE_ CROSS_ ENTROPY - GGML_
OPT_ LOSS_ TYPE_ MEAN - GGML_
OPT_ LOSS_ TYPE_ MEAN_ SQUARED_ ERROR - GGML_
OPT_ LOSS_ TYPE_ SUM - GGML_
OP_ ACC - GGML_
OP_ ADD - GGML_
OP_ ADD1 - GGML_
OP_ ADD_ REL_ POS - GGML_
OP_ ARANGE - GGML_
OP_ ARGMAX - GGML_
OP_ ARGSORT - GGML_
OP_ CLAMP - GGML_
OP_ CONCAT - GGML_
OP_ CONT - GGML_
OP_ CONV_ 2D_ DW - GGML_
OP_ CONV_ TRANSPOSE_ 1D - GGML_
OP_ CONV_ TRANSPOSE_ 2D - GGML_
OP_ COS - GGML_
OP_ COUNT - GGML_
OP_ COUNT_ EQUAL - GGML_
OP_ CPY - GGML_
OP_ CROSS_ ENTROPY_ LOSS - GGML_
OP_ CROSS_ ENTROPY_ LOSS_ BACK - GGML_
OP_ CUSTOM - GGML_
OP_ DIAG - GGML_
OP_ DIAG_ MASK_ INF - GGML_
OP_ DIAG_ MASK_ ZERO - GGML_
OP_ DIV - GGML_
OP_ DUP - GGML_
OP_ FLASH_ ATTN_ BACK - GGML_
OP_ FLASH_ ATTN_ EXT - GGML_
OP_ GATED_ LINEAR_ ATTN - GGML_
OP_ GET_ REL_ POS - GGML_
OP_ GET_ ROWS - GGML_
OP_ GET_ ROWS_ BACK - GGML_
OP_ GROUP_ NORM - GGML_
OP_ IM2COL - GGML_
OP_ IM2COL_ BACK - GGML_
OP_ L2_ NORM - GGML_
OP_ LEAKY_ RELU - GGML_
OP_ LOG - GGML_
OP_ MAP_ CUSTO M1 - GGML_
OP_ MAP_ CUSTO M2 - GGML_
OP_ MAP_ CUSTO M3 - GGML_
OP_ MEAN - GGML_
OP_ MUL - GGML_
OP_ MUL_ MAT - GGML_
OP_ MUL_ MAT_ ID - GGML_
OP_ NONE - GGML_
OP_ NORM - GGML_
OP_ OPT_ STEP_ ADAMW - GGML_
OP_ OUT_ PROD - GGML_
OP_ PAD - GGML_
OP_ PAD_ REFLECT_ 1D - GGML_
OP_ PERMUTE - GGML_
OP_ POOL_ 1D - GGML_
OP_ POOL_ 2D - GGML_
OP_ POOL_ 2D_ BACK - GGML_
OP_ POOL_ AVG - GGML_
OP_ POOL_ COUNT - GGML_
OP_ POOL_ MAX - GGML_
OP_ REPEAT - GGML_
OP_ REPEAT_ BACK - GGML_
OP_ RESHAPE - GGML_
OP_ RMS_ NORM - GGML_
OP_ RMS_ NORM_ BACK - GGML_
OP_ ROPE - GGML_
OP_ ROPE_ BACK - GGML_
OP_ RWKV_ WKV6 - GGML_
OP_ RWKV_ WKV7 - GGML_
OP_ SCALE - GGML_
OP_ SET - GGML_
OP_ SILU_ BACK - GGML_
OP_ SIN - GGML_
OP_ SOFT_ MAX - GGML_
OP_ SOFT_ MAX_ BACK - GGML_
OP_ SQR - GGML_
OP_ SQRT - GGML_
OP_ SSM_ CONV - GGML_
OP_ SSM_ SCAN - GGML_
OP_ SUB - GGML_
OP_ SUM - GGML_
OP_ SUM_ ROWS - GGML_
OP_ TIMESTEP_ EMBEDDING - GGML_
OP_ TRANSPOSE - GGML_
OP_ UNARY - GGML_
OP_ UPSCALE - GGML_
OP_ VIEW - GGML_
OP_ WIN_ PART - GGML_
OP_ WIN_ UNPART - GGML_
PREC_ DEFAULT - GGML_
PREC_ F32 - GGML_
SCALE_ MODE_ BILINEAR - GGML_
SCALE_ MODE_ NEAREST - GGML_
SCHED_ PRIO_ HIGH - GGML_
SCHED_ PRIO_ LOW - GGML_
SCHED_ PRIO_ MEDIUM - GGML_
SCHED_ PRIO_ NORMAL - GGML_
SCHED_ PRIO_ REALTIME - GGML_
SORT_ ORDER_ ASC - GGML_
SORT_ ORDER_ DESC - GGML_
STATUS_ ABORTED - GGML_
STATUS_ ALLOC_ FAILED - GGML_
STATUS_ FAILED - GGML_
STATUS_ SUCCESS - GGML_
TENSOR_ FLAG_ INPUT - GGML_
TENSOR_ FLAG_ LOSS - GGML_
TENSOR_ FLAG_ OUTPUT - GGML_
TENSOR_ FLAG_ PARAM - GGML_
TYPE_ BF16 - GGML_
TYPE_ COUNT - GGML_
TYPE_ F16 - GGML_
TYPE_ F32 - GGML_
TYPE_ F64 - GGML_
TYPE_ I8 - GGML_
TYPE_ I16 - GGML_
TYPE_ I32 - GGML_
TYPE_ I64 - GGML_
TYPE_ IQ1_ M - GGML_
TYPE_ IQ1_ S - GGML_
TYPE_ IQ2_ S - GGML_
TYPE_ IQ2_ XS - GGML_
TYPE_ IQ2_ XXS - GGML_
TYPE_ IQ3_ S - GGML_
TYPE_ IQ3_ XXS - GGML_
TYPE_ IQ4_ NL - GGML_
TYPE_ IQ4_ XS - GGML_
TYPE_ Q2_ K - GGML_
TYPE_ Q3_ K - GGML_
TYPE_ Q4_ 0 - GGML_
TYPE_ Q4_ 1 - GGML_
TYPE_ Q4_ K - GGML_
TYPE_ Q5_ 0 - GGML_
TYPE_ Q5_ 1 - GGML_
TYPE_ Q5_ K - GGML_
TYPE_ Q6_ K - GGML_
TYPE_ Q8_ 0 - GGML_
TYPE_ Q8_ 1 - GGML_
TYPE_ Q8_ K - GGML_
TYPE_ TQ1_ 0 - GGML_
TYPE_ TQ2_ 0 - GGML_
UNARY_ OP_ ABS - GGML_
UNARY_ OP_ COUNT - GGML_
UNARY_ OP_ ELU - GGML_
UNARY_ OP_ EXP - GGML_
UNARY_ OP_ GELU - GGML_
UNARY_ OP_ GELU_ ERF - GGML_
UNARY_ OP_ GELU_ QUICK - GGML_
UNARY_ OP_ HARDSIGMOID - GGML_
UNARY_ OP_ HARDSWISH - GGML_
UNARY_ OP_ NEG - GGML_
UNARY_ OP_ RELU - GGML_
UNARY_ OP_ SGN - GGML_
UNARY_ OP_ SIGMOID - GGML_
UNARY_ OP_ SILU - GGML_
UNARY_ OP_ STEP - GGML_
UNARY_ OP_ TANH - LLAMA_
ATTENTION_ TYPE_ CAUSAL - LLAMA_
ATTENTION_ TYPE_ NON_ CAUSAL - LLAMA_
ATTENTION_ TYPE_ UNSPECIFIED - LLAMA_
FTYPE_ ALL_ F32 - LLAMA_
FTYPE_ GUESSED - LLAMA_
FTYPE_ MOSTLY_ BF16 - LLAMA_
FTYPE_ MOSTLY_ F16 - LLAMA_
FTYPE_ MOSTLY_ IQ1_ M - LLAMA_
FTYPE_ MOSTLY_ IQ1_ S - LLAMA_
FTYPE_ MOSTLY_ IQ2_ M - LLAMA_
FTYPE_ MOSTLY_ IQ2_ S - LLAMA_
FTYPE_ MOSTLY_ IQ2_ XS - LLAMA_
FTYPE_ MOSTLY_ IQ2_ XXS - LLAMA_
FTYPE_ MOSTLY_ IQ3_ M - LLAMA_
FTYPE_ MOSTLY_ IQ3_ S - LLAMA_
FTYPE_ MOSTLY_ IQ3_ XS - LLAMA_
FTYPE_ MOSTLY_ IQ3_ XXS - LLAMA_
FTYPE_ MOSTLY_ IQ4_ NL - LLAMA_
FTYPE_ MOSTLY_ IQ4_ XS - LLAMA_
FTYPE_ MOSTLY_ Q2_ K - LLAMA_
FTYPE_ MOSTLY_ Q2_ K_ S - LLAMA_
FTYPE_ MOSTLY_ Q3_ K_ L - LLAMA_
FTYPE_ MOSTLY_ Q3_ K_ M - LLAMA_
FTYPE_ MOSTLY_ Q3_ K_ S - LLAMA_
FTYPE_ MOSTLY_ Q4_ 0 - LLAMA_
FTYPE_ MOSTLY_ Q4_ 1 - LLAMA_
FTYPE_ MOSTLY_ Q4_ K_ M - LLAMA_
FTYPE_ MOSTLY_ Q4_ K_ S - LLAMA_
FTYPE_ MOSTLY_ Q5_ 0 - LLAMA_
FTYPE_ MOSTLY_ Q5_ 1 - LLAMA_
FTYPE_ MOSTLY_ Q5_ K_ M - LLAMA_
FTYPE_ MOSTLY_ Q5_ K_ S - LLAMA_
FTYPE_ MOSTLY_ Q6_ K - LLAMA_
FTYPE_ MOSTLY_ Q8_ 0 - LLAMA_
FTYPE_ MOSTLY_ TQ1_ 0 - LLAMA_
FTYPE_ MOSTLY_ TQ2_ 0 - LLAMA_
KV_ OVERRIDE_ TYPE_ BOOL - LLAMA_
KV_ OVERRIDE_ TYPE_ FLOAT - LLAMA_
KV_ OVERRIDE_ TYPE_ INT - LLAMA_
KV_ OVERRIDE_ TYPE_ STR - LLAMA_
POOLING_ TYPE_ CLS - LLAMA_
POOLING_ TYPE_ LAST - LLAMA_
POOLING_ TYPE_ MEAN - LLAMA_
POOLING_ TYPE_ NONE - LLAMA_
POOLING_ TYPE_ RANK - LLAMA_
POOLING_ TYPE_ UNSPECIFIED - LLAMA_
ROPE_ SCALING_ TYPE_ LINEAR - LLAMA_
ROPE_ SCALING_ TYPE_ LONGROPE - LLAMA_
ROPE_ SCALING_ TYPE_ MAX_ VALUE - LLAMA_
ROPE_ SCALING_ TYPE_ NONE - LLAMA_
ROPE_ SCALING_ TYPE_ UNSPECIFIED - LLAMA_
ROPE_ SCALING_ TYPE_ YARN - LLAMA_
ROPE_ TYPE_ MROPE - LLAMA_
ROPE_ TYPE_ NEOX - LLAMA_
ROPE_ TYPE_ NONE - LLAMA_
ROPE_ TYPE_ NORM - LLAMA_
ROPE_ TYPE_ VISION - LLAMA_
SPLIT_ MODE_ LAYER - LLAMA_
SPLIT_ MODE_ NONE - LLAMA_
SPLIT_ MODE_ ROW - LLAMA_
TOKEN_ ATTR_ BYTE - LLAMA_
TOKEN_ ATTR_ CONTROL - LLAMA_
TOKEN_ ATTR_ LSTRIP - LLAMA_
TOKEN_ ATTR_ NORMAL - LLAMA_
TOKEN_ ATTR_ NORMALIZED - LLAMA_
TOKEN_ ATTR_ RSTRIP - LLAMA_
TOKEN_ ATTR_ SINGLE_ WORD - LLAMA_
TOKEN_ ATTR_ UNDEFINED - LLAMA_
TOKEN_ ATTR_ UNKNOWN - LLAMA_
TOKEN_ ATTR_ UNUSED - LLAMA_
TOKEN_ ATTR_ USER_ DEFINED - LLAMA_
TOKEN_ TYPE_ BYTE - LLAMA_
TOKEN_ TYPE_ CONTROL - LLAMA_
TOKEN_ TYPE_ NORMAL - LLAMA_
TOKEN_ TYPE_ UNDEFINED - LLAMA_
TOKEN_ TYPE_ UNKNOWN - LLAMA_
TOKEN_ TYPE_ UNUSED - LLAMA_
TOKEN_ TYPE_ USER_ DEFINED - LLAMA_
VOCAB_ PRE_ TYPE_ BAILINGMOE - LLAMA_
VOCAB_ PRE_ TYPE_ BLOOM - LLAMA_
VOCAB_ PRE_ TYPE_ CHAMELEON - LLAMA_
VOCAB_ PRE_ TYPE_ CHATGL M3 - LLAMA_
VOCAB_ PRE_ TYPE_ CHATGL M4 - LLAMA_
VOCAB_ PRE_ TYPE_ CODESHELL - LLAMA_
VOCAB_ PRE_ TYPE_ COMMAND_ R - LLAMA_
VOCAB_ PRE_ TYPE_ DBRX - LLAMA_
VOCAB_ PRE_ TYPE_ DEEPSEE K3_ LLM - LLAMA_
VOCAB_ PRE_ TYPE_ DEEPSEEK_ CODER - LLAMA_
VOCAB_ PRE_ TYPE_ DEEPSEEK_ LLM - LLAMA_
VOCAB_ PRE_ TYPE_ DEFAULT - LLAMA_
VOCAB_ PRE_ TYPE_ EXAONE - LLAMA_
VOCAB_ PRE_ TYPE_ FALCON - LLAMA_
VOCAB_ PRE_ TYPE_ GPT2 - LLAMA_
VOCAB_ PRE_ TYPE_ GPT3_ FINNISH - LLAMA_
VOCAB_ PRE_ TYPE_ GPT4O - LLAMA_
VOCAB_ PRE_ TYPE_ JAIS - LLAMA_
VOCAB_ PRE_ TYPE_ LLAM A3 - LLAMA_
VOCAB_ PRE_ TYPE_ LLAM A4 - LLAMA_
VOCAB_ PRE_ TYPE_ MINERVA - LLAMA_
VOCAB_ PRE_ TYPE_ MPT - LLAMA_
VOCAB_ PRE_ TYPE_ OLMO - LLAMA_
VOCAB_ PRE_ TYPE_ PIXTRAL - LLAMA_
VOCAB_ PRE_ TYPE_ PORO - LLAMA_
VOCAB_ PRE_ TYPE_ QWEN2 - LLAMA_
VOCAB_ PRE_ TYPE_ REFACT - LLAMA_
VOCAB_ PRE_ TYPE_ SEED_ CODER - LLAMA_
VOCAB_ PRE_ TYPE_ SMAUG - LLAMA_
VOCAB_ PRE_ TYPE_ SMOLLM - LLAMA_
VOCAB_ PRE_ TYPE_ STABLEL M2 - LLAMA_
VOCAB_ PRE_ TYPE_ STARCODER - LLAMA_
VOCAB_ PRE_ TYPE_ SUPERBPE - LLAMA_
VOCAB_ PRE_ TYPE_ TEKKEN - LLAMA_
VOCAB_ PRE_ TYPE_ TRILLION - LLAMA_
VOCAB_ PRE_ TYPE_ VIKING - LLAMA_
VOCAB_ TYPE_ BPE - LLAMA_
VOCAB_ TYPE_ NONE - LLAMA_
VOCAB_ TYPE_ RWKV - LLAMA_
VOCAB_ TYPE_ SPM - LLAMA_
VOCAB_ TYPE_ UGM - LLAMA_
VOCAB_ TYPE_ WPM
Functions§
- ggml_
abort ⚠ - ggml_
abs ⚠ - ggml_
abs_ ⚠inplace - ggml_
acc ⚠ - ggml_
acc_ ⚠inplace - ggml_
add ⚠ - ggml_
add1 ⚠ - ggml_
add1_ ⚠inplace - ggml_
add_ ⚠cast - ggml_
add_ ⚠inplace - ggml_
add_ ⚠rel_ pos - ggml_
add_ ⚠rel_ pos_ inplace - ggml_
arange ⚠ - ggml_
are_ ⚠same_ shape - ggml_
are_ ⚠same_ stride - ggml_
argmax ⚠ - ggml_
argsort ⚠ - ggml_
backend_ ⚠alloc_ buffer - ggml_
backend_ ⚠alloc_ ctx_ tensors - ggml_
backend_ ⚠alloc_ ctx_ tensors_ from_ buft - ggml_
backend_ ⚠buffer_ clear - ggml_
backend_ ⚠buffer_ free - ggml_
backend_ ⚠buffer_ get_ alignment - ggml_
backend_ ⚠buffer_ get_ alloc_ size - ggml_
backend_ ⚠buffer_ get_ base - ggml_
backend_ ⚠buffer_ get_ max_ size - ggml_
backend_ ⚠buffer_ get_ size - ggml_
backend_ ⚠buffer_ get_ type - ggml_
backend_ ⚠buffer_ get_ usage - ggml_
backend_ ⚠buffer_ init_ tensor - ggml_
backend_ ⚠buffer_ is_ host - ggml_
backend_ ⚠buffer_ name - ggml_
backend_ ⚠buffer_ reset - ggml_
backend_ ⚠buffer_ set_ usage - ggml_
backend_ ⚠buft_ alloc_ buffer - ggml_
backend_ ⚠buft_ get_ alignment - ggml_
backend_ ⚠buft_ get_ alloc_ size - ggml_
backend_ ⚠buft_ get_ device - ggml_
backend_ ⚠buft_ get_ max_ size - ggml_
backend_ ⚠buft_ is_ host - ggml_
backend_ ⚠buft_ name - ggml_
backend_ ⚠compare_ graph_ backend - ggml_
backend_ ⚠cpu_ buffer_ from_ ptr - ggml_
backend_ ⚠cpu_ buffer_ type - ggml_
backend_ ⚠cpu_ init - ggml_
backend_ ⚠cpu_ reg - ggml_
backend_ ⚠cpu_ set_ abort_ callback - ggml_
backend_ ⚠cpu_ set_ n_ threads - ggml_
backend_ ⚠cpu_ set_ threadpool - ggml_
backend_ ⚠dev_ backend_ reg - ggml_
backend_ ⚠dev_ buffer_ from_ host_ ptr - ggml_
backend_ ⚠dev_ buffer_ type - ggml_
backend_ ⚠dev_ by_ name - ggml_
backend_ ⚠dev_ by_ type - ggml_
backend_ ⚠dev_ count - ggml_
backend_ ⚠dev_ description - ggml_
backend_ ⚠dev_ get - ggml_
backend_ ⚠dev_ get_ props - ggml_
backend_ ⚠dev_ host_ buffer_ type - ggml_
backend_ ⚠dev_ init - ggml_
backend_ ⚠dev_ memory - ggml_
backend_ ⚠dev_ name - ggml_
backend_ ⚠dev_ offload_ op - ggml_
backend_ ⚠dev_ supports_ buft - ggml_
backend_ ⚠dev_ supports_ op - ggml_
backend_ ⚠dev_ type - ggml_
backend_ ⚠device_ register - ggml_
backend_ ⚠event_ free - ggml_
backend_ ⚠event_ new - ggml_
backend_ ⚠event_ record - ggml_
backend_ ⚠event_ synchronize - ggml_
backend_ ⚠event_ wait - ggml_
backend_ ⚠free - ggml_
backend_ ⚠get_ alignment - ggml_
backend_ ⚠get_ default_ buffer_ type - ggml_
backend_ ⚠get_ device - ggml_
backend_ ⚠get_ max_ size - ggml_
backend_ ⚠graph_ compute - ggml_
backend_ ⚠graph_ compute_ async - ggml_
backend_ ⚠graph_ copy - ggml_
backend_ ⚠graph_ copy_ free - ggml_
backend_ ⚠graph_ plan_ compute - ggml_
backend_ ⚠graph_ plan_ create - ggml_
backend_ ⚠graph_ plan_ free - ggml_
backend_ ⚠guid - ggml_
backend_ ⚠init_ best - ggml_
backend_ ⚠init_ by_ name - ggml_
backend_ ⚠init_ by_ type - ggml_
backend_ ⚠is_ cpu - ggml_
backend_ ⚠load - ggml_
backend_ ⚠load_ all - ggml_
backend_ ⚠load_ all_ from_ path - ggml_
backend_ ⚠name - ggml_
backend_ ⚠offload_ op - ggml_
backend_ ⚠reg_ by_ name - ggml_
backend_ ⚠reg_ count - ggml_
backend_ ⚠reg_ dev_ count - ggml_
backend_ ⚠reg_ dev_ get - ggml_
backend_ ⚠reg_ get - ggml_
backend_ ⚠reg_ get_ proc_ address - ggml_
backend_ ⚠reg_ name - ggml_
backend_ ⚠sched_ alloc_ graph - ggml_
backend_ ⚠sched_ free - ggml_
backend_ ⚠sched_ get_ backend - ggml_
backend_ ⚠sched_ get_ buffer_ size - ggml_
backend_ ⚠sched_ get_ n_ backends - ggml_
backend_ ⚠sched_ get_ n_ copies - ggml_
backend_ ⚠sched_ get_ n_ splits - ggml_
backend_ ⚠sched_ get_ tensor_ backend - ggml_
backend_ ⚠sched_ graph_ compute - ggml_
backend_ ⚠sched_ graph_ compute_ async - ggml_
backend_ ⚠sched_ new - ggml_
backend_ ⚠sched_ reserve - ggml_
backend_ ⚠sched_ reset - ggml_
backend_ ⚠sched_ set_ eval_ callback - ggml_
backend_ ⚠sched_ set_ tensor_ backend - ggml_
backend_ ⚠sched_ synchronize - ggml_
backend_ ⚠supports_ buft - ggml_
backend_ ⚠supports_ op - ggml_
backend_ ⚠synchronize - ggml_
backend_ ⚠tensor_ alloc - ggml_
backend_ ⚠tensor_ copy - ggml_
backend_ ⚠tensor_ copy_ async - ggml_
backend_ ⚠tensor_ get - ggml_
backend_ ⚠tensor_ get_ async - ggml_
backend_ ⚠tensor_ memset - ggml_
backend_ ⚠tensor_ set - ggml_
backend_ ⚠tensor_ set_ async - ggml_
backend_ ⚠unload - ggml_
backend_ ⚠view_ init - ggml_
bf16_ ⚠to_ fp32 - ggml_
bf16_ ⚠to_ fp32_ row - ggml_
blck_ ⚠size - ggml_
build_ ⚠backward_ expand - ggml_
build_ ⚠forward_ expand - ggml_
can_ ⚠repeat - ggml_
cast ⚠ - ggml_
clamp ⚠ - ggml_
concat ⚠ - ggml_
cont ⚠ - ggml_
cont_ ⚠1d - ggml_
cont_ ⚠2d - ggml_
cont_ ⚠3d - ggml_
cont_ ⚠4d - ggml_
conv_ ⚠1d - ggml_
conv_ ⚠1d_ dw - ggml_
conv_ ⚠1d_ dw_ ph - ggml_
conv_ ⚠1d_ ph - ggml_
conv_ ⚠2d - ggml_
conv_ ⚠2d_ dw - ggml_
conv_ ⚠2d_ dw_ direct - ggml_
conv_ ⚠2d_ s1_ ph - ggml_
conv_ ⚠2d_ sk_ p0 - ggml_
conv_ ⚠transpose_ 1d - ggml_
conv_ ⚠transpose_ 2d_ p0 - ggml_
cos ⚠ - ggml_
cos_ ⚠inplace - ggml_
count_ ⚠equal - ggml_
cpu_ ⚠bf16_ to_ fp32 - ggml_
cpu_ ⚠fp16_ to_ fp32 - ggml_
cpu_ ⚠fp32_ to_ bf16 - ggml_
cpu_ ⚠fp32_ to_ fp16 - ggml_
cpu_ ⚠get_ sve_ cnt - ggml_
cpu_ ⚠has_ amx_ int8 - ggml_
cpu_ ⚠has_ arm_ fma - ggml_
cpu_ ⚠has_ avx - ggml_
cpu_ ⚠has_ avx2 - ggml_
cpu_ ⚠has_ avx512 - ggml_
cpu_ ⚠has_ avx512_ bf16 - ggml_
cpu_ ⚠has_ avx512_ vbmi - ggml_
cpu_ ⚠has_ avx512_ vnni - ggml_
cpu_ ⚠has_ avx_ vnni - ggml_
cpu_ ⚠has_ bmi2 - ggml_
cpu_ ⚠has_ dotprod - ggml_
cpu_ ⚠has_ f16c - ggml_
cpu_ ⚠has_ fma - ggml_
cpu_ ⚠has_ fp16_ va - ggml_
cpu_ ⚠has_ llamafile - ggml_
cpu_ ⚠has_ matmul_ int8 - ggml_
cpu_ ⚠has_ neon - ggml_
cpu_ ⚠has_ riscv_ v - ggml_
cpu_ ⚠has_ sme - ggml_
cpu_ ⚠has_ sse3 - ggml_
cpu_ ⚠has_ ssse3 - ggml_
cpu_ ⚠has_ sve - ggml_
cpu_ ⚠has_ vsx - ggml_
cpu_ ⚠has_ vxe - ggml_
cpu_ ⚠has_ wasm_ simd - ggml_
cpu_ ⚠init - ggml_
cpy ⚠ - ggml_
cross_ ⚠entropy_ loss - ggml_
cross_ ⚠entropy_ loss_ back - ggml_
custom_ ⚠4d - ggml_
custom_ ⚠inplace - ggml_
cycles ⚠ - ggml_
cycles_ ⚠per_ ms - ggml_
diag ⚠ - ggml_
diag_ ⚠mask_ inf - ggml_
diag_ ⚠mask_ inf_ inplace - ggml_
diag_ ⚠mask_ zero - ggml_
diag_ ⚠mask_ zero_ inplace - ggml_
div ⚠ - ggml_
div_ ⚠inplace - ggml_
dup ⚠ - ggml_
dup_ ⚠inplace - ggml_
dup_ ⚠tensor - ggml_
element_ ⚠size - ggml_
elu ⚠ - ggml_
elu_ ⚠inplace - ggml_
exp ⚠ - ggml_
exp_ ⚠inplace - ggml_
flash_ ⚠attn_ back - ggml_
flash_ ⚠attn_ ext - ggml_
flash_ ⚠attn_ ext_ get_ prec - ggml_
flash_ ⚠attn_ ext_ set_ prec - ggml_
fopen ⚠ - ggml_
format_ ⚠name - ggml_
fp16_ ⚠to_ fp32 - ggml_
fp16_ ⚠to_ fp32_ row - ggml_
fp32_ ⚠to_ bf16 - ggml_
fp32_ ⚠to_ bf16_ row - ggml_
fp32_ ⚠to_ bf16_ row_ ref - ggml_
fp32_ ⚠to_ fp16 - ggml_
fp32_ ⚠to_ fp16_ row - ggml_
free ⚠ - ggml_
ftype_ ⚠to_ ggml_ type - ggml_
gallocr_ ⚠alloc_ graph - ggml_
gallocr_ ⚠free - ggml_
gallocr_ ⚠get_ buffer_ size - ggml_
gallocr_ ⚠new - ggml_
gallocr_ ⚠new_ n - ggml_
gallocr_ ⚠reserve - ggml_
gallocr_ ⚠reserve_ n - ggml_
gated_ ⚠linear_ attn - ggml_
gelu ⚠ - ggml_
gelu_ ⚠erf - ggml_
gelu_ ⚠erf_ inplace - ggml_
gelu_ ⚠inplace - ggml_
gelu_ ⚠quick - ggml_
gelu_ ⚠quick_ inplace - ggml_
get_ ⚠data - ggml_
get_ ⚠data_ f32 - ggml_
get_ ⚠f32_ 1d - ggml_
get_ ⚠f32_ nd - ggml_
get_ ⚠first_ tensor - ggml_
get_ ⚠i32_ 1d - ggml_
get_ ⚠i32_ nd - ggml_
get_ ⚠max_ tensor_ size - ggml_
get_ ⚠mem_ buffer - ggml_
get_ ⚠mem_ size - ggml_
get_ ⚠name - ggml_
get_ ⚠next_ tensor - ggml_
get_ ⚠no_ alloc - ggml_
get_ ⚠rel_ pos - ggml_
get_ ⚠rows - ggml_
get_ ⚠rows_ back - ggml_
get_ ⚠tensor - ggml_
get_ ⚠type_ traits - ggml_
get_ ⚠type_ traits_ cpu - ggml_
get_ ⚠unary_ op - ggml_
graph_ ⚠add_ node - ggml_
graph_ ⚠clear - ggml_
graph_ ⚠compute - ggml_
graph_ ⚠compute_ with_ ctx - ggml_
graph_ ⚠cpy - ggml_
graph_ ⚠dump_ dot - ggml_
graph_ ⚠dup - ggml_
graph_ ⚠get_ grad - ggml_
graph_ ⚠get_ grad_ acc - ggml_
graph_ ⚠get_ tensor - ggml_
graph_ ⚠n_ nodes - ggml_
graph_ ⚠node - ggml_
graph_ ⚠nodes - ggml_
graph_ ⚠overhead - ggml_
graph_ ⚠overhead_ custom - ggml_
graph_ ⚠plan - ggml_
graph_ ⚠print - ggml_
graph_ ⚠reset - ggml_
graph_ ⚠size - ggml_
group_ ⚠norm - ggml_
group_ ⚠norm_ inplace - ggml_
guid_ ⚠matches - ggml_
hardsigmoid ⚠ - ggml_
hardswish ⚠ - ggml_
im2col ⚠ - ggml_
im2col_ ⚠back - ggml_
init ⚠ - ggml_
is_ ⚠3d - ggml_
is_ ⚠contiguous - ggml_
is_ ⚠contiguous_ 0 - ggml_
is_ ⚠contiguous_ 1 - ggml_
is_ ⚠contiguous_ 2 - ggml_
is_ ⚠contiguous_ channels - ggml_
is_ ⚠contiguously_ allocated - ggml_
is_ ⚠empty - ggml_
is_ ⚠matrix - ggml_
is_ ⚠numa - ggml_
is_ ⚠permuted - ggml_
is_ ⚠quantized - ggml_
is_ ⚠scalar - ggml_
is_ ⚠transposed - ggml_
is_ ⚠vector - ggml_
l2_ ⚠norm - ggml_
l2_ ⚠norm_ inplace - ggml_
leaky_ ⚠relu - ggml_
log ⚠ - ggml_
log_ ⚠inplace - ggml_
log_ ⚠set - ggml_
map_ ⚠custom1 - ggml_
map_ ⚠custom2 - ggml_
map_ ⚠custom3 - ggml_
map_ ⚠custom1_ inplace - ggml_
map_ ⚠custom2_ inplace - ggml_
map_ ⚠custom3_ inplace - ggml_
mean ⚠ - ggml_
mul ⚠ - ggml_
mul_ ⚠inplace - ggml_
mul_ ⚠mat - ggml_
mul_ ⚠mat_ id - ggml_
mul_ ⚠mat_ set_ prec - ggml_
n_ ⚠dims - ggml_
nbytes ⚠ - ggml_
nbytes_ ⚠pad - ggml_
neg ⚠ - ggml_
neg_ ⚠inplace - ggml_
nelements ⚠ - ggml_
new_ ⚠buffer - ggml_
new_ ⚠f32 - ggml_
new_ ⚠graph - ggml_
new_ ⚠graph_ custom - ggml_
new_ ⚠i32 - ggml_
new_ ⚠tensor - ggml_
new_ ⚠tensor_ 1d - ggml_
new_ ⚠tensor_ 2d - ggml_
new_ ⚠tensor_ 3d - ggml_
new_ ⚠tensor_ 4d - ggml_
norm ⚠ - ggml_
norm_ ⚠inplace - ggml_
nrows ⚠ - ggml_
numa_ ⚠init - ggml_
op_ ⚠desc - ggml_
op_ ⚠name - ggml_
op_ ⚠symbol - ggml_
opt_ ⚠alloc - ggml_
opt_ ⚠dataset_ data - ggml_
opt_ ⚠dataset_ free - ggml_
opt_ ⚠dataset_ get_ batch - ggml_
opt_ ⚠dataset_ get_ batch_ host - ggml_
opt_ ⚠dataset_ init - ggml_
opt_ ⚠dataset_ labels - ggml_
opt_ ⚠dataset_ ndata - ggml_
opt_ ⚠dataset_ shuffle - ggml_
opt_ ⚠default_ params - ggml_
opt_ ⚠epoch - ggml_
opt_ ⚠epoch_ callback_ progress_ bar - ggml_
opt_ ⚠eval - ggml_
opt_ ⚠fit - ggml_
opt_ ⚠free - ggml_
opt_ ⚠get_ constant_ optimizer_ params - ggml_
opt_ ⚠get_ default_ optimizer_ params - ggml_
opt_ ⚠grad_ acc - ggml_
opt_ ⚠init - ggml_
opt_ ⚠inputs - ggml_
opt_ ⚠labels - ggml_
opt_ ⚠loss - ggml_
opt_ ⚠ncorrect - ggml_
opt_ ⚠outputs - ggml_
opt_ ⚠pred - ggml_
opt_ ⚠prepare_ alloc - ggml_
opt_ ⚠reset - ggml_
opt_ ⚠result_ accuracy - ggml_
opt_ ⚠result_ free - ggml_
opt_ ⚠result_ init - ggml_
opt_ ⚠result_ loss - ggml_
opt_ ⚠result_ ndata - ggml_
opt_ ⚠result_ pred - ggml_
opt_ ⚠result_ reset - ggml_
opt_ ⚠static_ graphs - ggml_
opt_ ⚠step_ adamw - ggml_
out_ ⚠prod - ggml_
pad ⚠ - ggml_
pad_ ⚠reflect_ 1d - ggml_
permute ⚠ - ggml_
pool_ ⚠1d - ggml_
pool_ ⚠2d - ggml_
pool_ ⚠2d_ back - ggml_
print_ ⚠object - ggml_
print_ ⚠objects - ggml_
quantize_ ⚠chunk - ggml_
quantize_ ⚠free - ggml_
quantize_ ⚠init - ggml_
quantize_ ⚠requires_ imatrix - ggml_
relu ⚠ - ggml_
relu_ ⚠inplace - ggml_
repeat ⚠ - ggml_
repeat_ ⚠4d - ggml_
repeat_ ⚠back - ggml_
reset ⚠ - ggml_
reshape ⚠ - ggml_
reshape_ ⚠1d - ggml_
reshape_ ⚠2d - ggml_
reshape_ ⚠3d - ggml_
reshape_ ⚠4d - ggml_
rms_ ⚠norm - ggml_
rms_ ⚠norm_ back - ggml_
rms_ ⚠norm_ inplace - ggml_
rope ⚠ - ggml_
rope_ ⚠custom - ggml_
rope_ ⚠custom_ inplace - ggml_
rope_ ⚠ext - ggml_
rope_ ⚠ext_ back - ggml_
rope_ ⚠ext_ inplace - ggml_
rope_ ⚠inplace - ggml_
rope_ ⚠multi - ggml_
rope_ ⚠multi_ back - ggml_
rope_ ⚠yarn_ corr_ dims - ggml_
row_ ⚠size - ggml_
rwkv_ ⚠wkv6 - ggml_
rwkv_ ⚠wkv7 - ggml_
scale ⚠ - ggml_
scale_ ⚠inplace - ggml_
set ⚠ - ggml_
set_ ⚠1d - ggml_
set_ ⚠1d_ inplace - ggml_
set_ ⚠2d - ggml_
set_ ⚠2d_ inplace - ggml_
set_ ⚠f32 - ggml_
set_ ⚠f32_ 1d - ggml_
set_ ⚠f32_ nd - ggml_
set_ ⚠i32 - ggml_
set_ ⚠i32_ 1d - ggml_
set_ ⚠i32_ nd - ggml_
set_ ⚠inplace - ggml_
set_ ⚠input - ggml_
set_ ⚠loss - ggml_
set_ ⚠name - ggml_
set_ ⚠no_ alloc - ggml_
set_ ⚠output - ggml_
set_ ⚠param - ggml_
set_ ⚠zero - ggml_
sgn ⚠ - ggml_
sgn_ ⚠inplace - ggml_
sigmoid ⚠ - ggml_
sigmoid_ ⚠inplace - ggml_
silu ⚠ - ggml_
silu_ ⚠back - ggml_
silu_ ⚠inplace - ggml_
sin ⚠ - ggml_
sin_ ⚠inplace - ggml_
soft_ ⚠max - ggml_
soft_ ⚠max_ ext - ggml_
soft_ ⚠max_ ext_ back - ggml_
soft_ ⚠max_ ext_ back_ inplace - ggml_
soft_ ⚠max_ inplace - ggml_
sqr ⚠ - ggml_
sqr_ ⚠inplace - ggml_
sqrt ⚠ - ggml_
sqrt_ ⚠inplace - ggml_
ssm_ ⚠conv - ggml_
ssm_ ⚠scan - ggml_
status_ ⚠to_ string - ggml_
step ⚠ - ggml_
step_ ⚠inplace - ggml_
sub ⚠ - ggml_
sub_ ⚠inplace - ggml_
sum ⚠ - ggml_
sum_ ⚠rows - ggml_
tallocr_ ⚠alloc - ggml_
tallocr_ ⚠new - ggml_
tanh ⚠ - ggml_
tanh_ ⚠inplace - ggml_
tensor_ ⚠overhead - ggml_
threadpool_ ⚠free - ggml_
threadpool_ ⚠get_ n_ threads - ggml_
threadpool_ ⚠new - ggml_
threadpool_ ⚠params_ default - ggml_
threadpool_ ⚠params_ init - ggml_
threadpool_ ⚠params_ match - ggml_
threadpool_ ⚠pause - ggml_
threadpool_ ⚠resume - ggml_
time_ ⚠init - ggml_
time_ ⚠ms - ggml_
time_ ⚠us - ggml_
timestep_ ⚠embedding - ggml_
top_ ⚠k - ggml_
transpose ⚠ - ggml_
type_ ⚠name - ggml_
type_ ⚠size - ggml_
type_ ⚠sizef - ggml_
unary ⚠ - ggml_
unary_ ⚠inplace - ggml_
unary_ ⚠op_ name - ggml_
unravel_ ⚠index - ggml_
upscale ⚠ - ggml_
upscale_ ⚠ext - ggml_
used_ ⚠mem - ggml_
validate_ ⚠row_ data - ggml_
view_ ⚠1d - ggml_
view_ ⚠2d - ggml_
view_ ⚠3d - ggml_
view_ ⚠4d - ggml_
view_ ⚠tensor - ggml_
win_ ⚠part - ggml_
win_ ⚠unpart - llama_
adapter_ ⚠lora_ free - llama_
adapter_ ⚠lora_ init - llama_
add_ ⚠bos_ token - llama_
add_ ⚠eos_ token - llama_
apply_ ⚠adapter_ cvec - llama_
attach_ ⚠threadpool - llama_
backend_ ⚠free - llama_
backend_ ⚠init - llama_
batch_ ⚠free - llama_
batch_ ⚠get_ one - llama_
batch_ ⚠init - llama_
chat_ ⚠apply_ template - Apply chat template. Inspired by hf apply_chat_template() on python. Both “model” and “custom_template” are optional, but at least one is required. “custom_template” has higher precedence than “model” NOTE: This function does not use a jinja parser. It only support a pre-defined list of template. See more: https://github.com/ggml-org/llama.cpp/wiki/Templates-supported-by-llama_chat_apply_template @param tmpl A Jinja template to use for this chat. If this is nullptr, the model’s default chat template will be used instead. @param chat Pointer to a list of multiple llama_chat_message @param n_msg Number of llama_chat_message in this chat @param add_ass Whether to end the prompt with the token(s) that indicate the start of an assistant message. @param buf A buffer to hold the output formatted prompt. The recommended alloc size is 2 * (total number of characters of all messages) @param length The size of the allocated buffer @return The total number of bytes of the formatted prompt. If is it larger than the size of buffer, you may need to re-alloc it and then re-apply the template.
- llama_
chat_ ⚠builtin_ templates - llama_
clear_ ⚠adapter_ lora - llama_
context_ ⚠default_ params - llama_
copy_ ⚠state_ data - llama_
decode ⚠ - llama_
detach_ ⚠threadpool - llama_
detokenize ⚠ - @details Convert the provided tokens into text (inverse of llama_tokenize()). @param text The char pointer must be large enough to hold the resulting text. @return Returns the number of chars/bytes on success, no more than text_len_max. @return Returns a negative number on failure - the number of chars/bytes that would have been returned. @param remove_special Allow to remove BOS and EOS tokens if model is configured to do so. @param unparse_special If true, special tokens are rendered in the output.
- llama_
encode ⚠ - llama_
free ⚠ - llama_
free_ ⚠model - llama_
get_ ⚠embeddings - llama_
get_ ⚠embeddings_ ith - llama_
get_ ⚠embeddings_ seq - llama_
get_ ⚠kv_ self - llama_
get_ ⚠logits - llama_
get_ ⚠logits_ ith - llama_
get_ ⚠memory - llama_
get_ ⚠model - llama_
get_ ⚠state_ size - llama_
init_ ⚠from_ model - llama_
kv_ ⚠self_ can_ shift - llama_
kv_ ⚠self_ clear - llama_
kv_ ⚠self_ defrag - llama_
kv_ ⚠self_ n_ tokens - llama_
kv_ ⚠self_ seq_ add - llama_
kv_ ⚠self_ seq_ cp - llama_
kv_ ⚠self_ seq_ div - llama_
kv_ ⚠self_ seq_ keep - llama_
kv_ ⚠self_ seq_ pos_ max - llama_
kv_ ⚠self_ seq_ pos_ min - llama_
kv_ ⚠self_ seq_ rm - llama_
kv_ ⚠self_ update - llama_
kv_ ⚠self_ used_ cells - llama_
load_ ⚠model_ from_ file - llama_
load_ ⚠session_ file - llama_
log_ ⚠set - llama_
max_ ⚠devices - llama_
max_ ⚠parallel_ sequences - llama_
memory_ ⚠can_ shift - llama_
memory_ ⚠clear - llama_
memory_ ⚠seq_ add - llama_
memory_ ⚠seq_ cp - llama_
memory_ ⚠seq_ div - llama_
memory_ ⚠seq_ keep - llama_
memory_ ⚠seq_ pos_ max - llama_
memory_ ⚠seq_ pos_ min - llama_
memory_ ⚠seq_ rm - llama_
model_ ⚠chat_ template - llama_
model_ ⚠cls_ label - llama_
model_ ⚠decoder_ start_ token - llama_
model_ ⚠default_ params - llama_
model_ ⚠desc - llama_
model_ ⚠free - llama_
model_ ⚠get_ vocab - llama_
model_ ⚠has_ decoder - llama_
model_ ⚠has_ encoder - llama_
model_ ⚠is_ recurrent - llama_
model_ ⚠load_ from_ file - llama_
model_ ⚠load_ from_ splits - llama_
model_ ⚠meta_ count - llama_
model_ ⚠meta_ key_ by_ index - llama_
model_ ⚠meta_ val_ str - llama_
model_ ⚠meta_ val_ str_ by_ index - llama_
model_ ⚠n_ cls_ out - llama_
model_ ⚠n_ ctx_ train - llama_
model_ ⚠n_ embd - llama_
model_ ⚠n_ head - llama_
model_ ⚠n_ head_ kv - llama_
model_ ⚠n_ layer - llama_
model_ ⚠n_ params - llama_
model_ ⚠n_ swa - llama_
model_ ⚠quantize - llama_
model_ ⚠quantize_ default_ params - llama_
model_ ⚠rope_ freq_ scale_ train - llama_
model_ ⚠rope_ type - llama_
model_ ⚠save_ to_ file - llama_
model_ ⚠size - llama_
n_ ⚠batch - llama_
n_ ⚠ctx - llama_
n_ ⚠ctx_ train - llama_
n_ ⚠embd - llama_
n_ ⚠head - llama_
n_ ⚠layer - llama_
n_ ⚠seq_ max - llama_
n_ ⚠threads - llama_
n_ ⚠threads_ batch - llama_
n_ ⚠ubatch - llama_
n_ ⚠vocab - llama_
new_ ⚠context_ with_ model - llama_
numa_ ⚠init - llama_
opt_ ⚠epoch - llama_
opt_ ⚠init - llama_
opt_ ⚠param_ filter_ all - llama_
perf_ ⚠context - llama_
perf_ ⚠context_ print - llama_
perf_ ⚠context_ reset - llama_
perf_ ⚠sampler - llama_
perf_ ⚠sampler_ print - llama_
perf_ ⚠sampler_ reset - llama_
pooling_ ⚠type - llama_
print_ ⚠system_ info - llama_
rm_ ⚠adapter_ lora - llama_
sampler_ ⚠accept - llama_
sampler_ ⚠apply - llama_
sampler_ ⚠chain_ add - llama_
sampler_ ⚠chain_ default_ params - llama_
sampler_ ⚠chain_ get - llama_
sampler_ ⚠chain_ init - llama_
sampler_ ⚠chain_ n - llama_
sampler_ ⚠chain_ remove - llama_
sampler_ ⚠clone - llama_
sampler_ ⚠free - llama_
sampler_ ⚠get_ seed - llama_
sampler_ ⚠init - llama_
sampler_ ⚠init_ dist - llama_
sampler_ ⚠init_ dry - @details DRY sampler, designed by p-e-w, as described in: https://github.com/oobabooga/text-generation-webui/pull/5677, porting Koboldcpp implementation authored by pi6am: https://github.com/LostRuins/koboldcpp/pull/982
- llama_
sampler_ ⚠init_ grammar - @details Intializes a GBNF grammar, see grammars/README.md for details. @param vocab The vocabulary that this grammar will be used with. @param grammar_str The production rules for the grammar, encoded as a string. Returns an empty grammar if empty. Returns NULL if parsing of grammar_str fails. @param grammar_root The name of the start symbol for the grammar.
- llama_
sampler_ ⚠init_ grammar_ lazy - llama_
sampler_ ⚠init_ grammar_ lazy_ patterns - @details Lazy grammar sampler, introduced in https://github.com/ggml-org/llama.cpp/pull/9639 @param trigger_patterns A list of patterns that will trigger the grammar sampler. Pattern will be matched from the start of the generation output, and grammar sampler will be fed content starting from its first match group. @param trigger_tokens A list of tokens that will trigger the grammar sampler. Grammar sampler will be fed content starting from the trigger token included.
- llama_
sampler_ ⚠init_ greedy - llama_
sampler_ ⚠init_ infill - llama_
sampler_ ⚠init_ logit_ bias - llama_
sampler_ ⚠init_ min_ p - @details Minimum P sampling as described in https://github.com/ggml-org/llama.cpp/pull/3841
- llama_
sampler_ ⚠init_ mirostat - @details Mirostat 1.0 algorithm described in the paper https://arxiv.org/abs/2007.14966. Uses tokens instead of words.
@param candidates A vector of
llama_token_data
containing the candidate tokens, their probabilities (p), and log-odds (logit) for the current position in the generated text. @param tau The target cross-entropy (or surprise) value you want to achieve for the generated text. A higher value corresponds to more surprising or less predictable text, while a lower value corresponds to less surprising or more predictable text. @param eta The learning rate used to updatemu
based on the error between the target and observed surprisal of the sampled word. A larger learning rate will causemu
to be updated more quickly, while a smaller learning rate will result in slower updates. @param m The number of tokens considered in the estimation ofs_hat
. This is an arbitrary value that is used to calculates_hat
, which in turn helps to calculate the value ofk
. In the paper, they usem = 100
, but you can experiment with different values to see how it affects the performance of the algorithm. @param mu Maximum cross-entropy. This value is initialized to be twice the target cross-entropy (2 * tau
) and is updated in the algorithm based on the error between the target and observed surprisal. - llama_
sampler_ ⚠init_ mirostat_ v2 - @details Mirostat 2.0 algorithm described in the paper https://arxiv.org/abs/2007.14966. Uses tokens instead of words.
@param candidates A vector of
llama_token_data
containing the candidate tokens, their probabilities (p), and log-odds (logit) for the current position in the generated text. @param tau The target cross-entropy (or surprise) value you want to achieve for the generated text. A higher value corresponds to more surprising or less predictable text, while a lower value corresponds to less surprising or more predictable text. @param eta The learning rate used to updatemu
based on the error between the target and observed surprisal of the sampled word. A larger learning rate will causemu
to be updated more quickly, while a smaller learning rate will result in slower updates. @param mu Maximum cross-entropy. This value is initialized to be twice the target cross-entropy (2 * tau
) and is updated in the algorithm based on the error between the target and observed surprisal. - llama_
sampler_ ⚠init_ penalties - NOTE: Avoid using on the full vocabulary as searching for repeated tokens can become slow. For example, apply top-k or top-p sampling first.
- llama_
sampler_ ⚠init_ softmax - @details Sorts candidate tokens by their logits in descending order and calculate probabilities based on logits. NOTE: Avoid using on the full vocabulary as the sorting can become slow. For example, apply top-k or top-p sampling first.
- llama_
sampler_ ⚠init_ temp - #details Updates the logits l_i` = l_i/t. When t <= 0.0f, the maximum logit is kept at it’s original value, the rest are set to -inf
- llama_
sampler_ ⚠init_ temp_ ext - @details Dynamic temperature implementation (a.k.a. entropy) described in the paper https://arxiv.org/abs/2309.02772.
- llama_
sampler_ ⚠init_ top_ k - @details Top-K sampling described in academic paper “The Curious Case of Neural Text Degeneration” https://arxiv.org/abs/1904.09751 Setting k <= 0 makes this a noop
- llama_
sampler_ ⚠init_ top_ n_ sigma - @details Top n sigma sampling as described in academic paper “Top-nσ: Not All Logits Are You Need” https://arxiv.org/pdf/2411.07641
- llama_
sampler_ ⚠init_ top_ p - @details Nucleus sampling described in academic paper “The Curious Case of Neural Text Degeneration” https://arxiv.org/abs/1904.09751
- llama_
sampler_ ⚠init_ typical - @details Locally Typical Sampling implementation described in the paper https://arxiv.org/abs/2202.00666.
- llama_
sampler_ ⚠init_ xtc - @details XTC sampler as described in https://github.com/oobabooga/text-generation-webui/pull/6335
- llama_
sampler_ ⚠name - llama_
sampler_ ⚠reset - llama_
sampler_ ⚠sample - llama_
save_ ⚠session_ file - llama_
set_ ⚠abort_ callback - llama_
set_ ⚠adapter_ lora - llama_
set_ ⚠causal_ attn - llama_
set_ ⚠embeddings - llama_
set_ ⚠n_ threads - llama_
set_ ⚠state_ data - llama_
set_ ⚠warmup - llama_
split_ ⚠path - @details Build a split GGUF final path for this chunk. llama_split_path(split_path, sizeof(split_path), “/models/ggml-model-q4_0”, 2, 4) => split_path = “/models/ggml-model-q4_0-00002-of-00004.gguf”
- llama_
split_ ⚠prefix - @details Extract the path prefix from the split_path if and only if the split_no and split_count match. llama_split_prefix(split_prefix, 64, “/models/ggml-model-q4_0-00002-of-00004.gguf”, 2, 4) => split_prefix = “/models/ggml-model-q4_0”
- llama_
state_ ⚠get_ data - llama_
state_ ⚠get_ size - llama_
state_ ⚠load_ file - llama_
state_ ⚠save_ file - llama_
state_ ⚠seq_ get_ data - llama_
state_ ⚠seq_ get_ size - llama_
state_ ⚠seq_ load_ file - llama_
state_ ⚠seq_ save_ file - llama_
state_ ⚠seq_ set_ data - llama_
state_ ⚠set_ data - llama_
supports_ ⚠gpu_ offload - llama_
supports_ ⚠mlock - llama_
supports_ ⚠mmap - llama_
supports_ ⚠rpc - llama_
synchronize ⚠ - llama_
time_ ⚠us - llama_
token_ ⚠bos - llama_
token_ ⚠cls - llama_
token_ ⚠eos - llama_
token_ ⚠eot - llama_
token_ ⚠fim_ mid - llama_
token_ ⚠fim_ pad - llama_
token_ ⚠fim_ pre - llama_
token_ ⚠fim_ rep - llama_
token_ ⚠fim_ sep - llama_
token_ ⚠fim_ suf - llama_
token_ ⚠get_ attr - llama_
token_ ⚠get_ score - llama_
token_ ⚠get_ text - llama_
token_ ⚠is_ control - llama_
token_ ⚠is_ eog - llama_
token_ ⚠nl - llama_
token_ ⚠pad - llama_
token_ ⚠sep - llama_
token_ ⚠to_ piece - llama_
tokenize ⚠ - @details Convert the provided text into tokens. @param tokens The tokens pointer must be large enough to hold the resulting tokens. @return Returns the number of tokens on success, no more than n_tokens_max @return Returns a negative number on failure - the number of tokens that would have been returned @param add_special Allow to add BOS and EOS tokens if model is configured to do so. @param parse_special Allow tokenizing special and/or control tokens which otherwise are not exposed and treated as plaintext. Does not insert a leading space.
- llama_
vocab_ ⚠bos - llama_
vocab_ ⚠cls - llama_
vocab_ ⚠eos - llama_
vocab_ ⚠eot - llama_
vocab_ ⚠fim_ mid - llama_
vocab_ ⚠fim_ pad - llama_
vocab_ ⚠fim_ pre - llama_
vocab_ ⚠fim_ rep - llama_
vocab_ ⚠fim_ sep - llama_
vocab_ ⚠fim_ suf - llama_
vocab_ ⚠get_ add_ bos - llama_
vocab_ ⚠get_ add_ eos - llama_
vocab_ ⚠get_ attr - llama_
vocab_ ⚠get_ score - llama_
vocab_ ⚠get_ text - llama_
vocab_ ⚠is_ control - llama_
vocab_ ⚠is_ eog - llama_
vocab_ ⚠n_ tokens - llama_
vocab_ ⚠nl - llama_
vocab_ ⚠pad - llama_
vocab_ ⚠sep - llama_
vocab_ ⚠type
Type Aliases§
- FILE
- _IO_
lock_ t - __
off64_ t - __off_t
- ggml_
abort_ callback - ggml_
backend_ buffer_ t - ggml_
backend_ buffer_ type_ t - ggml_
backend_ buffer_ usage - ggml_
backend_ dev_ get_ extra_ bufts_ t - ggml_
backend_ dev_ t - ggml_
backend_ dev_ type - ggml_
backend_ eval_ callback - ggml_
backend_ event_ t - ggml_
backend_ get_ features_ t - ggml_
backend_ graph_ plan_ t - ggml_
backend_ reg_ t - ggml_
backend_ sched_ eval_ callback - ggml_
backend_ sched_ t - ggml_
backend_ set_ abort_ callback_ t - ggml_
backend_ set_ n_ threads_ t - ggml_
backend_ split_ buffer_ type_ t - ggml_
backend_ t - ggml_
custom1_ op_ t - ggml_
custom2_ op_ t - ggml_
custom3_ op_ t - ggml_
custom_ op_ t - ggml_
fp16_ t - ggml_
from_ float_ t - ggml_
ftype - ggml_
gallocr_ t - ggml_
guid - ggml_
guid_ t - ggml_
log_ callback - ggml_
log_ level - ggml_
numa_ strategy - ggml_
object_ type - ggml_op
- ggml_
op_ pool - ggml_
opt_ build_ type - ggml_
opt_ context_ t - ggml_
opt_ dataset_ t - ggml_
opt_ epoch_ callback - ggml_
opt_ get_ optimizer_ params - ggml_
opt_ loss_ type - ggml_
opt_ result_ t - ggml_
prec - ggml_
scale_ mode - ggml_
sched_ priority - ggml_
sort_ order - ggml_
status - ggml_
tensor_ flag - ggml_
threadpool_ t - ggml_
to_ float_ t - ggml_
type - ggml_
unary_ op - ggml_
vec_ dot_ t - llama_
attention_ type - llama_
ftype - llama_
memory_ t - llama_
model_ kv_ override_ type - llama_
opt_ param_ filter - llama_
pooling_ type - llama_
pos - llama_
progress_ callback - llama_
rope_ scaling_ type - llama_
rope_ type - llama_
sampler_ context_ t - llama_
seq_ id - llama_
split_ mode - llama_
token - llama_
token_ attr - llama_
token_ type - llama_
vocab_ pre_ type - llama_
vocab_ type