nodedb-fts 0.0.0

Shared full-text search engine for NodeDB — inverted index, BM25 scoring, analyzers, fuzzy matching
Documentation
//! Stop word lists for Asian languages.
//! CJK languages (Chinese, Japanese, Korean) primarily use particles/function words.
//! Languages with whitespace (Hindi, Indonesian, Vietnamese) use conventional stop words.

pub static HINDI: &[&str] = &[
    "अपना",
    "अपनी",
    "अपने",
    "इन",
    "इस",
    "इसके",
    "उन",
    "उनके",
    "उस",
    "उसके",
    "एक",
    "और",
    "कई",
    "कर",
    "करता",
    "करते",
    "करना",
    "करने",
    "का",
    "काम",
    "कि",
    "किसी",
    "की",
    "कुछ",
    "के",
    "को",
    "कोई",
    "गया",
    "घर",
    "जब",
    "जा",
    "जो",
    "तक",
    "तब",
    "तरह",
    "था",
    "थी",
    "दिया",
    "दो",
    "नहीं",
    "ने",
    "पर",
    "बहुत",
    "बाद",
    "भी",
    "में",
    "मैं",
    "यह",
    "यहाँ",
    "ये",
    "रहा",
    "रहे",
    "लिए",
    "वह",
    "वे",
    "सकता",
    "सब",
    "से",
    "हम",
    "हर",
    "है",
    "हैं",
    "हो",
    "होता",
];

pub static CHINESE: &[&str] = &[
    "", "", "", "", "", "", "", "", "", "", "", "", "", "", "",
    "可以", "", "", "", "", "", "", "", "", "", "", "", "", "", "",
    "", "", "", "", "", "", "", "", "", "", "",
];

pub static JAPANESE: &[&str] = &[
    "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "",
    "", "", "", "", "", "", "", "", "", "", "", "", "", "", "", "",
    "", "", "", "", "", "",
];

pub static KOREAN: &[&str] = &[
    "",
    "같이",
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    "근데",
    "까지",
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    "되다",
    "",
    "",
    "",
    "",
    "",
    "",
    "",
    "밖에",
    "보다",
    "",
    "사이",
    "",
    "",
    "",
    "",
    "에서",
    "",
    "",
    "",
    "으로",
    "",
    "",
    "",
    "",
    "있다",
    "",
    "",
    "",
    "",
    "",
    "",
    "하다",
    "",
    "",
    "합니다",
    "",
    "",
];

pub static THAI: &[&str] = &[
    "กว่า",
    "กัน",
    "กับ",
    "การ",
    "ก็",
    "ขึ้น",
    "ครับ",
    "คือ",
    "ค่ะ",
    "จะ",
    "จาก",
    "จึง",
    "ซึ่ง",
    "ดัง",
    "ด้วย",
    "ถูก",
    "ทั้ง",
    "ที่",
    "นั้น",
    "นี้",
    "บน",
    "มา",
    "มาก",
    "มี",
    "ยัง",
    "รวม",
    "ว่า",
    "ส่วน",
    "หรือ",
    "อยู่",
    "อย่าง",
    "เป็น",
    "เมื่อ",
    "เรา",
    "แต่",
    "และ",
    "แล้ว",
    "โดย",
    "ใน",
    "ได้",
    "ไป",
    "ไม่",
];

pub static VIETNAMESE: &[&str] = &[
    "bị", "bởi", "cho", "các", "", "cùng", "cũng", "của", "do", "", "hay", "hoặc", "khi",
    "không", "", "lên", "lại", "", "một", "mới", "người", "như", "nhưng", "những", "này", "",
    "phải", "ra", "rằng", "rồi", "sau", "sẽ", "ta", "theo", "thì", "thế", "trong", "trên", "tất",
    "từ", "", "", "vậy", "về", "với", "đã", "đó", "được", "để",
];

pub static INDONESIAN: &[&str] = &[
    "ada", "adalah", "akan", "aku", "anda", "atau", "bagi", "bahwa", "banyak", "begitu", "bisa",
    "boleh", "bukan", "dan", "dari", "dengan", "di", "dia", "hanya", "harus", "ia", "ini", "itu",
    "jadi", "juga", "kami", "karena", "ke", "kepada", "kita", "lagi", "lain", "maka", "masih",
    "mereka", "mungkin", "oleh", "pada", "paling", "pun", "saja", "sangat", "saya", "sebagai",
    "sedang", "seperti", "sudah", "tak", "tanpa", "telah", "tidak", "untuk", "yang",
];