kham-core 0.4.0

Pure Rust Thai word segmentation engine — no_std compatible
Documentation
1
2
3
4
5
6
7
8
9
10
11
12
13
# Normalization test cases — all inputs are already in canonical form.
# Malformed cases (สระลอย reorder, วรรณยุกต์ dedup) are tested in code
# using explicit Unicode escapes since text editors normalize on save.
# Format: input|tok1|tok2|...
# These verify that normalize() is idempotent on clean Thai text.
กินข้าว|กินข้าว
สวัสดีชาวโลก|สวัสดี|ชาวโลก
ธนาคารแห่งนั้น|ธนาคาร|แห่ง|นั้น
น้ำใจดี|น้ำใจ|ดี
ข้าวต้มร้อน|ข้าวต้ม|ร้อน
ใจดีมีเมตตา|ใจดี|มี|เมตตา
ไฟฟ้าดับกลางคืน|ไฟฟ้า|ดับ|กลางคืน
ห้องน้ำสะอาด|ห้อง|น้ำสะอาด