icu_segmenter 2.2.0

Unicode line breaking and text segmentation algorithms for text boundaries analysis
Documentation
{
  "testcases": [{"unseg": "การผลิตหนังสือทางด้านความคิด", "expected_bies": "iiiebiiiebiiiebiebiiebe", "true_bies": "biebiebiiiebiebiebiiebe"}, 
                {"unseg": "เพียงใด", "expected_bies": "iiiebe", "true_bies": "biiebe"},
                {"unseg": "จะได้รับความสนใจจากผู้อ่านผู้ซื้อมากน้อยเพียงใด", "expected_bies": "bebebebiiebiiebiesbiesiebiebiebiiebe", "true_bies": "bebebebiiebiiebiesbiesbebiiiiebiiebe"},
                {"unseg": "ต้นฉบับหนึ่งอาจมีผู้อ่านๆ", "expected_bies": "iebiiieebiessbies", "true_bies": "biiiebiebiessbies"},
                {"unseg": "คนเดียวหรือหลายคนก็ได้", "expected_bies": "bebiiebiebiiebesbe", "true_bies": "bebiiebiebiiebebie"},
                {"unseg": "ทั้งนี้ตามแต่ระบบที่สำนักพิมพ์แต่ละแห่งกำหนดบางครั้งผู้อ่านอาจแนะนำให้มีการปรับปรุงก่อนที่จะให้สำนักพิมพ์รับจัดพิมพ์", "expected_bies": "iesbiebebiiesbiebebiiiebiibiiebiebiesbiebiebiiebesbiebiibiebiesbebebiebebiebibeb", "true_bies": "biebiebebiiesbiebiebiiebiebiiebiebiesbiebiebiiebesbiebiiiiebiesbebebiebiebebebie"},
                {"unseg": "หรือผู้จัดพิมพ์ให้ความเคารพเชื่อถืออยู่แล้ว", "expected_bies": "biesbebiibebiiebiiiebiebebebie", "true_bies": "biesbebiebebiiebiiiebiiiebiiie"},
                {"unseg": "ในบางกรณีผู้จัดพิมพ์เป็นผู้ริเริ่มการผลิตโดยติดต่อขอเรื่องที่ผู้ประพันธ์ได้ประพันธ์ไว้แล้วนำมาจัดพิมพ์หรือขอให้ผู้ประพันธ์", "expected_bies": "bebiebessbebebiiesiiiiiiiebebiebebebebiiessbiiiesbebiiiesbebiesbebebibiiebebesbiiieb", "true_bies": "bebiebiesbebiebiesbiiebiebiebiebiiebebiiessbiiiiebebiiiiebebiesbebebiebiebebesbiiiie"},
                {"unseg": "การพิมพ์หนังสือบางประเภท", "expected_bies": "biebebiiebiiiebiiiie", "true_bies": "biebiebiiiebiebiiiie"},
                {"unseg": "เช่น", "expected_bies": "bie", "true_bies": "bie"},
                {"unseg": "โครงสร้างและระบบการผลิตหนังสือทางความคิดของหนังสือประเภทใดควรจะเป็นอย่างใด", "expected_bies": "biiiiiiebiebiiebiiebiiiebiiiebiiebebiebiebiiiiiiebebiebebiebiiebe", "true_bies": "biiiiiiebiebiiebiebiebiiiebiebiiebebiebiiiebiiiiebebiebebiebiiebe"},
                {"unseg": "ขึ้นอยู่กับลักษณะของหนังสือที่ผลิตว่ามีลักษณะใด", "expected_bies": "bebebebibiebiebiebiiebiiesbiiiebe", "true_bies": "bebebebiiiebiebiiiesbiebesbiiiebe"},
                {"unseg": "อาจทำเป็นระบบการตั้งคณะกรรมการทางวิชาการดำเนินการเขียนหรือจัดประชุมหารายละเอียดในเนื้อหาของเรื่อง", "expected_bies": "biesbiebiiebiebebiebiiiiiebiebiebiebiiebiebiiebiebebiiiebebiebiiiiebebiebebiebiie", "true_bies": "biesbiebiiebiebebiebiiiiiebiebiiiiebiiebiebiiebiebebiiiebebiiiiiiiebebiiiebiebiie"},
                {"unseg": "หาข้อยุติทางปัญหาต่างๆ", "expected_bies": "iebebebiebiiebiie", "true_bies": "bebebebiebiiebiie"},
                {"unseg": "ในทางวิชาการ", "expected_bies": "bebiebiiiie", "true_bies": "bebiebiiiie"},
                {"unseg": "เมื่อผู้เขียนเขียนต้นฉบับหนังสือขึ้นมาแล้วก็มักจะพิมพ์ดีดให้เป็นต้นฉบับพิมพ์ดีดก่อนแล้วมีการตรวจทานแก้ไข", "expected_bies": "biesbiiebiiiiebiebiebibebebiesbebebebiebebiebebiebebiebiebiesbiebiiebiebibi", "true_bies": "biesbiiebiiebiiiebiiiebebebiesbebebiiiebebiebiiiebiiiebiebiesbiebiiebiebiie"},
                {"unseg": "ไม่ผิดพลาด", "expected_bies": "bebebiie", "true_bies": "bebiiiie"},
                {"unseg": "การส่งต้นฉบับที่ไม่เรียบร้อยไปโรงพิมพ์", "expected_bies": "biebeiebiesbebiiiiiebebiebeb", "true_bies": "biebebiiiesbebiiiiiebebiebie"},
                {"unseg": "ผู้ออกแบบหนังสือ", "expected_bies": "sbiebiebiebi", "true_bies": "sbiiiiebiiie"},
                {"unseg": "หรือการทำนามธรรมให้เป็นรูปธรรมนั้น", "expected_bies": "biebiesbiiiiiibebiebiiiiebe", "true_bies": "biebiesbiiiiiebebiebiiiiebe"},
                {"unseg": "ขนาดใด", "expected_bies": "biiebe", "true_bies": "biiebe"},
                {"unseg": "และประกอบด้วยอะไรบ้าง", "expected_bies": "biebiiiiebiebiiebie", "true_bies": "biebiiiiebiebiiebie"},
                {"unseg": "รูปเล่มหนังสือโดยปกติเป็นรูปสี่เหลี่ยมผืนผ้า", "expected_bies": "bibiebiebibiebiebiebiebiiiebebi", "true_bies": "bebiebiiiebiebiebiebesbiiiebebe"},
                {"unseg": "และอีกแบบหนึ่งคือหนังสือที่เปิดในแนวนอน", "expected_bies": "biebebiiieebebiebiebiebebiebie", "true_bies": "biebebiebiebebiiiesbiebebiebie"},
                {"unseg": "เป็นรูปสัตว์", "expected_bies": "biebiieb", "true_bies": "biebebie"},
                {"unseg": "หรือรูปอื่นๆ", "expected_bies": "biebiies", "true_bies": "biebebes"},
                {"unseg": "เพื่อเรียกความสนใจจากผู้อ่าน", "expected_bies": "biebiiebiiebiiebiesbie", "true_bies": "biebiiebiiebiiebiesbie"},
                {"unseg": "ขนาดหนังสือเล่มที่ผลิตกันโดยทั่วไปเป็นสองชุดขนาด", "expected_bies": "biiebiebiiiibebiiebiiiebebiebiebebiie", "true_bies": "biiebiiiebiesbiebebiebiiebiebiebebiie"},
                {"unseg": "แผ่น", "expected_bies": "bie", "true_bies": "bie"},
                {"unseg": "กระดาษตัด", "expected_bies": "bbiiebie", "true_bies": "biiiiebe"}]
}