Expand description
Vietnamese NLP library — tokenization, normalization, segmentation.
§Quick Start
use vn_nlp::tokenize;
let tokens = tokenize("Xin chào Việt Nam").unwrap();
assert_eq!(tokens[0].text, "Xin");Modules§
- error
- normalize
- Text normalization — diacritics, Unicode NFC/NFD.
- segment
- Sentence segmentation.
- tokenize
- Tokenization algorithms cho tiếng Việt.
- traits
- types
Structs§
- Sentence
- Một câu sau khi segment.
- Span
- Vị trí byte offset trong string gốc.
- Token
- Một token sau khi tách.
Enums§
- Token
Kind - Phân loại token.
- VnNlp
Error - Lỗi chung cho vn-nlp.
Traits§
- Normalizer
- Trait cho các thuật toán normalization.
- Segmenter
- Trait cho các thuật toán sentence segmentation.
- Tokenizer
- Trait cho các thuật toán tokenization.