fastembed 5.8.0

Features

Supports synchronous usage. No dependency on Tokio.
Uses @pykeio/ort for performant ONNX inference.
Uses @huggingface/tokenizers for fast encodings.

Not looking for Rust?

Python: fastembed
Go: fastembed-go
JavaScript: fastembed-js

Models

Text Embedding

BAAI/bge-small-en-v1.5 - Default
BAAI/bge-base-en-v1.5
BAAI/bge-large-en-v1.5
BAAI/bge-small-zh-v1.5
BAAI/bge-large-zh-v1.5
BAAI/bge-m3
sentence-transformers/all-MiniLM-L6-v2
sentence-transformers/all-MiniLM-L12-v2
sentence-transformers/all-mpnet-base-v2
sentence-transformers/paraphrase-MiniLM-L12-v2
sentence-transformers/paraphrase-multilingual-mpnet-base-v2
nomic-ai/nomic-embed-text-v1
nomic-ai/nomic-embed-text-v1.5 - pairs with nomic-embed-vision-v1.5 for image-to-text search
intfloat/multilingual-e5-small
intfloat/multilingual-e5-base
intfloat/multilingual-e5-large
mixedbread-ai/mxbai-embed-large-v1
Alibaba-NLP/gte-base-en-v1.5
Alibaba-NLP/gte-large-en-v1.5
lightonai/ModernBERT-embed-large
Qdrant/clip-ViT-B-32-text - pairs with clip-ViT-B-32-vision for image-to-text search
jinaai/jina-embeddings-v2-base-code
jinaai/jina-embeddings-v2-base-en
google/embeddinggemma-300m
Qwen/Qwen3-Embedding-0.6B - requires qwen3 feature (candle backend)
Qwen/Qwen3-Embedding-4B - requires qwen3 feature (candle backend)
Qwen/Qwen3-Embedding-8B - requires qwen3 feature (candle backend)
snowflake/snowflake-arctic-embed-xs
snowflake/snowflake-arctic-embed-s
snowflake/snowflake-arctic-embed-m
snowflake/snowflake-arctic-embed-m-long
snowflake/snowflake-arctic-embed-l

Quantized versions are also available for several models above (append Q to the model enum variant, e.g., EmbeddingModel::BGESmallENV15Q).

Sparse Text Embedding

prithivida/Splade_PP_en_v1 - Default
BAAI/bge-m3

Image Embedding

Reranking

✊ Support

To support the library, please donate to our primary upstream dependency, ort - The Rust wrapper for the ONNX runtime.

Installation

Run the following in your project directory:

cargo add fastembed

Or add the following line to your Cargo.toml:

[dependencies]
fastembed = "5"

Usage

Text Embeddings

use fastembed::{TextEmbedding, InitOptions, EmbeddingModel};

// With default options
let mut model = TextEmbedding::try_new(Default::default())?;

// With custom options
let mut model = TextEmbedding::try_new(
    InitOptions::new(EmbeddingModel::AllMiniLML6V2).with_show_download_progress(true),
)?;

let documents = vec![
    "passage: Hello, World!",
    "query: Hello, World!",
    "passage: This is an example passage.",
    // You can leave out the prefix but it's recommended
    "fastembed-rs is licensed under Apache 2.0"
];

 // Generate embeddings with the default batch size, 256
 let embeddings = model.embed(documents, None)?;

 println!("Embeddings length: {}", embeddings.len()); // -> Embeddings length: 4
 println!("Embedding dimension: {}", embeddings[0].len()); // -> Embedding dimension: 384

Qwen3 Embeddings

Qwen3 embedding models are available behind the qwen3 feature flag (candle backend).

[dependencies]
fastembed = { version = "5", features = ["qwen3"] }

use candle_core::{DType, Device};
use fastembed::Qwen3TextEmbedding;

let device = Device::Cpu;
let model = Qwen3TextEmbedding::from_hf(
    "Qwen/Qwen3-Embedding-0.6B",
    &device,
    DType::F32,
    512,
)?;

let embeddings = model.embed(&["query: ...", "passage: ..."])?;
println!("Embeddings length: {}", embeddings.len());

Sparse Text Embeddings

use fastembed::{SparseEmbedding, SparseInitOptions, SparseModel, SparseTextEmbedding};

// With default options
let mut model = SparseTextEmbedding::try_new(Default::default())?;

// With custom options
let mut model = SparseTextEmbedding::try_new(
    SparseInitOptions::new(SparseModel::SPLADEPPV1).with_show_download_progress(true),
)?;

let documents = vec![
    "passage: Hello, World!",
    "query: Hello, World!",
    "passage: This is an example passage.",
    "fastembed-rs is licensed under Apache 2.0"
];

// Generate embeddings with the default batch size, 256
let embeddings: Vec<SparseEmbedding> = model.embed(documents, None)?;

Image Embeddings

use fastembed::{ImageEmbedding, ImageInitOptions, ImageEmbeddingModel};

// With default options
let mut model = ImageEmbedding::try_new(Default::default())?;

// With custom options
let mut model = ImageEmbedding::try_new(
    ImageInitOptions::new(ImageEmbeddingModel::ClipVitB32).with_show_download_progress(true),
)?;

let images = vec!["assets/image_0.png", "assets/image_1.png"];

// Generate embeddings with the default batch size, 256
let embeddings = model.embed(images, None)?;

println!("Embeddings length: {}", embeddings.len()); // -> Embeddings length: 2
println!("Embedding dimension: {}", embeddings[0].len()); // -> Embedding dimension: 512

Candidates Reranking

use fastembed::{TextRerank, RerankInitOptions, RerankerModel};

// With default options
let mut model = TextRerank::try_new(Default::default())?;

// With custom options
let mut model = TextRerank::try_new(
    RerankInitOptions::new(RerankerModel::BGERerankerBase).with_show_download_progress(true),
)?;

let documents = vec![
    "hi",
    "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear, is a bear species endemic to China.",
    "panda is animal",
    "i dont know",
    "kind of mammal",
];

// Rerank with the default batch size, 256 and return document contents
let results = model.rerank("what is panda?", documents, true, None)?;
println!("Rerank result: {:?}", results);

Alternatively, local model files can be used for inference via the try_new_from_user_defined(...) methods of respective structs.

LICENSE

Apache 2.0