kreuzberg 4.6.1

High-performance document intelligence library for Rust. Extract text, metadata, and structured data from PDFs, Office documents, images, and 88+ formats with async/sync APIs.
Documentation
//! Tesseract OCR language support.
//!
//! Tesseract supports 100+ languages via the Tesseract OCR engine.

/// Get list of languages supported by Tesseract OCR.
///
/// # Returns
///
/// A vector of 100+ language codes supported by Tesseract.
pub(in crate::ocr) fn languages() -> Vec<String> {
    vec![
        "afr".to_string(),
        "amh".to_string(),
        "ara".to_string(),
        "asm".to_string(),
        "aze".to_string(),
        "aze_cyrl".to_string(),
        "bel".to_string(),
        "ben".to_string(),
        "bod".to_string(),
        "bos".to_string(),
        "bre".to_string(),
        "bul".to_string(),
        "cat".to_string(),
        "ceb".to_string(),
        "ces".to_string(),
        "chi_sim".to_string(),
        "chi_tra".to_string(),
        "chr".to_string(),
        "cos".to_string(),
        "cym".to_string(),
        "dan".to_string(),
        "deu".to_string(),
        "div".to_string(),
        "dzo".to_string(),
        "ell".to_string(),
        "eng".to_string(),
        "enm".to_string(),
        "epo".to_string(),
        "equ".to_string(),
        "est".to_string(),
        "eus".to_string(),
        "fao".to_string(),
        "fas".to_string(),
        "fil".to_string(),
        "fin".to_string(),
        "fra".to_string(),
        "frk".to_string(),
        "frm".to_string(),
        "fry".to_string(),
        "gla".to_string(),
        "gle".to_string(),
        "glg".to_string(),
        "grc".to_string(),
        "guj".to_string(),
        "hat".to_string(),
        "heb".to_string(),
        "hin".to_string(),
        "hrv".to_string(),
        "hun".to_string(),
        "hye".to_string(),
        "iku".to_string(),
        "ind".to_string(),
        "isl".to_string(),
        "ita".to_string(),
        "ita_old".to_string(),
        "jav".to_string(),
        "jpn".to_string(),
        "kan".to_string(),
        "kat".to_string(),
        "kat_old".to_string(),
        "kaz".to_string(),
        "khm".to_string(),
        "kir".to_string(),
        "kmr".to_string(),
        "kor".to_string(),
        "lao".to_string(),
        "lat".to_string(),
        "lav".to_string(),
        "lit".to_string(),
        "ltz".to_string(),
        "mal".to_string(),
        "mar".to_string(),
        "mkd".to_string(),
        "mlt".to_string(),
        "mon".to_string(),
        "mri".to_string(),
        "msa".to_string(),
        "mya".to_string(),
        "nep".to_string(),
        "nld".to_string(),
        "nor".to_string(),
        "oci".to_string(),
        "ori".to_string(),
        "osd".to_string(),
        "pan".to_string(),
        "pol".to_string(),
        "por".to_string(),
        "pus".to_string(),
        "que".to_string(),
        "ron".to_string(),
        "rus".to_string(),
        "san".to_string(),
        "sin".to_string(),
        "slk".to_string(),
        "slv".to_string(),
        "snd".to_string(),
        "spa".to_string(),
        "spa_old".to_string(),
        "sqi".to_string(),
        "srp".to_string(),
        "srp_latn".to_string(),
        "sun".to_string(),
        "swa".to_string(),
        "swe".to_string(),
        "syr".to_string(),
        "tam".to_string(),
        "tat".to_string(),
        "tel".to_string(),
        "tgk".to_string(),
        "tha".to_string(),
        "tir".to_string(),
        "ton".to_string(),
        "tur".to_string(),
        "uig".to_string(),
        "ukr".to_string(),
        "urd".to_string(),
        "uzb".to_string(),
        "uzb_cyrl".to_string(),
        "vie".to_string(),
        "yid".to_string(),
        "yor".to_string(),
    ]
}