Struct icu::segmenter::WordSegmenter

source ·

pub struct WordSegmenter { /* private fields */ }

Expand description

Supports loading word break data, and creating word break iterators for different string encodings.

Examples

Segment a string:

use icu_segmenter::WordSegmenter;
let segmenter = WordSegmenter::new_auto();

let breakpoints: Vec<usize> =
    segmenter.segment_str("Hello World").collect();
assert_eq!(&breakpoints, &[0, 5, 6, 11]);

Segment a Latin1 byte string:

use icu_segmenter::WordSegmenter;
let segmenter = WordSegmenter::new_auto();

let breakpoints: Vec<usize> =
    segmenter.segment_latin1(b"Hello World").collect();
assert_eq!(&breakpoints, &[0, 5, 6, 11]);

Successive boundaries can be used to retrieve the segments. In particular, the first boundary is always 0, and the last one is the length of the segmented text in code units.

use itertools::Itertools;
let text = "Mark’d ye his words?";
let segments: Vec<&str> = segmenter
    .segment_str(text)
    .tuple_windows()
    .map(|(i, j)| &text[i..j])
    .collect();
assert_eq!(
    &segments,
    &["Mark’d", " ", "ye", " ", "his", " ", "words", "?"]
);

Not all segments delimited by word boundaries are words; some are interword segments such as spaces and punctuation. The WordBreakIterator::word_type() of a boundary can be used to classify the preceding segment.

let words: Vec<&str> = {
    let mut it = segmenter.segment_str(text);
    std::iter::from_fn(move || it.next().map(|i| (i, it.word_type())))
        .tuple_windows()
        .filter(|(_, (_, status))| *status == WordType::Letter)
        .map(|((i, _), (j, _))| &text[i..j])
        .collect()
};
assert_eq!(&words, &["Mark’d", "ye", "his", "words"]);

Struct icu::segmenter::WordSegmenter

Implementations§

impl WordSegmenter

pub fn new_auto() -> WordSegmenter

pub fn try_new_auto_with_any_provider( provider: &(impl AnyProvider + ?Sized) ) -> Result<WordSegmenter, SegmenterError>

pub fn try_new_auto_with_buffer_provider( provider: &(impl BufferProvider + ?Sized) ) -> Result<WordSegmenter, SegmenterError>

pub fn try_new_auto_unstable<D>( provider: &D ) -> Result<WordSegmenter, SegmenterError>where D: DataProvider<WordBreakDataV1Marker> + DataProvider<DictionaryForWordOnlyAutoV1Marker> + DataProvider<LstmForWordLineAutoV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

pub fn new_lstm() -> WordSegmenter

pub fn try_new_lstm_with_any_provider( provider: &(impl AnyProvider + ?Sized) ) -> Result<WordSegmenter, SegmenterError>

pub fn try_new_lstm_with_buffer_provider( provider: &(impl BufferProvider + ?Sized) ) -> Result<WordSegmenter, SegmenterError>

pub fn try_new_lstm_unstable<D>( provider: &D ) -> Result<WordSegmenter, SegmenterError>where D: DataProvider<WordBreakDataV1Marker> + DataProvider<LstmForWordLineAutoV1Marker> + DataProvider<GraphemeClusterBreakDataV1Marker> + ?Sized,

pub fn new_dictionary() -> WordSegmenter

pub fn try_new_dictionary_with_any_provider( provider: &(impl AnyProvider + ?Sized) ) -> Result<WordSegmenter, SegmenterError>

pub fn try_new_dictionary_with_buffer_provider( provider: &(impl BufferProvider + ?Sized) ) -> Result<WordSegmenter, SegmenterError>

pub fn segment_str<'l, 's>( &'l self, input: &'s str ) -> WordBreakIterator<'l, 's, WordBreakTypeUtf8> ⓘ

pub fn segment_utf8<'l, 's>( &'l self, input: &'s [u8] ) -> WordBreakIterator<'l, 's, WordBreakTypePotentiallyIllFormedUtf8> ⓘ

pub fn segment_latin1<'l, 's>( &'l self, input: &'s [u8] ) -> WordBreakIterator<'l, 's, RuleBreakTypeLatin1> ⓘ

pub fn segment_utf16<'l, 's>( &'l self, input: &'s [u16] ) -> WordBreakIterator<'l, 's, WordBreakTypeUtf16> ⓘ

Trait Implementations§

impl Debug for WordSegmenter

fn fmt(&self, f: &mut Formatter<'_>) -> Result<(), Error>

Auto Trait Implementations§

impl RefUnwindSafe for WordSegmenter

impl Send for WordSegmenter

impl Sync for WordSegmenter

impl Unpin for WordSegmenter

impl UnwindSafe for WordSegmenter

Blanket Implementations§

impl<T> Any for Twhere T: 'static + ?Sized,

fn type_id(&self) -> TypeId

impl<T> Borrow<T> for Twhere T: ?Sized,

fn borrow(&self) -> &T

impl<T> BorrowMut<T> for Twhere T: ?Sized,

fn borrow_mut(&mut self) -> &mut T

impl<T> From<T> for T

fn from(t: T) -> T

impl<T, U> Into<U> for Twhere U: From<T>,

fn into(self) -> U

impl<T, U> TryFrom<U> for Twhere U: Into<T>,

type Error = Infallible

fn try_from(value: U) -> Result<T, <T as TryFrom<U>>::Error>

impl<T, U> TryInto<U> for Twhere U: TryFrom<T>,

type Error = <U as TryFrom<T>>::Error

fn try_into(self) -> Result<U, <U as TryFrom<T>>::Error>

impl<T> ErasedDestructor for Twhere T: 'static,

impl<T> MaybeSendSync for Twhere T: Send + Sync,