Struct tantivy_analysis_contrib::commons::PathTokenizer

source ·

pub struct PathTokenizer {
    pub reverse: bool,
    pub skip: usize,
    pub delimiter: char,
    pub replacement: Option<char>,
}

Available on crate feature commons only.

Expand description

Path tokenizer. It will tokenize this :

/part1/part2/part3

into

/part1
/part1/part2
/part1/part2/part3

Enabling reverse will make this tokenizer to behave like Lucene’s except that tokens will not be ordered the same way. See ReversePathHierarchyTokenizer

§Warning

To construct a new PathTokenizer you should use the PathTokenizerBuilder or the Default implementation as From trait will probably be removed.

§Examples

Here is an example with reverse set to false and use \ as character separator. It will also skip the first token.

use tantivy::tokenizer::{TextAnalyzer, Token};
use tantivy_analysis_contrib::commons::{PathTokenizer, PathTokenizerBuilder};

let path_tokenizer = PathTokenizerBuilder::default()
   .skip(1_usize)
   .delimiter('\\')
   .build()?;

let mut tmp = TextAnalyzer::builder(path_tokenizer).build();
let mut token_stream = tmp.token_stream("c:\\a\\b\\c");

let token = token_stream.next().expect("A token should be present.");
assert_eq!(token.text, "\\a".to_string());

let token = token_stream.next().expect("A token should be present.");
assert_eq!(token.text, "\\a\\b".to_string());

let token = token_stream.next().expect("A token should be present.");
assert_eq!(token.text, "\\a\\b\\c".to_string());

assert_eq!(None, token_stream.next());

This second example shows what tokens are produced if reverse is set to true and what does replacement parameter.

use tantivy::tokenizer::{TextAnalyzer, Token};
use tantivy_analysis_contrib::commons::{PathTokenizer, PathTokenizerBuilder};

let path_tokenizer = PathTokenizerBuilder::default()
   .delimiter('\\')
   .replacement('/')
   .reverse(true)
   .build()?;

let mut tmp = TextAnalyzer::builder(path_tokenizer).build();
let mut token_stream = tmp.token_stream("c:\\a\\b\\c");

let token = token_stream.next().expect("A token should be present.");
assert_eq!(token.text, "c".to_string());

let token = token_stream.next().expect("A token should be present.");
assert_eq!(token.text, "b/c".to_string());

let token = token_stream.next().expect("A token should be present.");
assert_eq!(token.text, "a/b/c".to_string());

let token = token_stream.next().expect("A token should be present.");
assert_eq!(token.text, "c:/a/b/c".to_string());

assert_eq!(None, token_stream.next());

Fields§

§reverse: bool

Do the tokenization backward.

mail.google.com

into

com
google.com
mail.google.com

§skip: usize

Number of parts to skip.

§delimiter: char

Delimiter of path parts In the following exemple, delimiter is the / character :

/part1/part2/part3

§replacement: Option<char>

Character that replaces delimiter for generated parts. If None then the same char as delimiter will be used. For example, if delimiter is / and replacement is |

/part1/part2/part3

will generate

|part1
|part1|part2
|part1|part2|part3

Struct tantivy_analysis_contrib::commons::PathTokenizerCopy item path

§Warning

§Examples

Fields§

Trait Implementations§

impl Clone for PathTokenizer

fn clone(&self) -> PathTokenizer

fn clone_from(&mut self, source: &Self)

impl Debug for PathTokenizer

fn fmt(&self, f: &mut Formatter<'_>) -> Result

impl Default for PathTokenizer

fn default() -> Self

impl Tokenizer for PathTokenizer

type TokenStream<'a> = PathTokenStream<'a>

fn token_stream<'a>(&'a mut self, text: &'a str) -> Self::TokenStream<'a>

impl Copy for PathTokenizer

Auto Trait Implementations§

impl Freeze for PathTokenizer

impl RefUnwindSafe for PathTokenizer

impl Send for PathTokenizer

impl Sync for PathTokenizer

impl Unpin for PathTokenizer

impl UnwindSafe for PathTokenizer

Blanket Implementations§

impl<T> Any for Twhere T: 'static + ?Sized,

fn type_id(&self) -> TypeId

impl<T> Borrow<T> for Twhere T: ?Sized,

fn borrow(&self) -> &T

impl<T> BorrowMut<T> for Twhere T: ?Sized,

fn borrow_mut(&mut self) -> &mut T

impl<T> From<T> for T

fn from(t: T) -> T

impl<T, U> Into<U> for Twhere U: From<T>,

fn into(self) -> U

impl<T> ToOwned for Twhere T: Clone,

type Owned = T

fn to_owned(&self) -> T

fn clone_into(&self, target: &mut T)

impl<T, U> TryFrom<U> for Twhere U: Into<T>,

type Error = Infallible

fn try_from(value: U) -> Result<T, <T as TryFrom<U>>::Error>

impl<T, U> TryInto<U> for Twhere U: TryFrom<T>,

type Error = <U as TryFrom<T>>::Error

fn try_into(self) -> Result<U, <U as TryFrom<T>>::Error>

Struct tantivy_analysis_contrib::commons::PathTokenizer

impl<T> Any for T
where T: 'static + ?Sized,

impl<T> Borrow<T> for T
where T: ?Sized,

impl<T> BorrowMut<T> for T
where T: ?Sized,

impl<T, U> Into<U> for T
where U: From<T>,

impl<T> ToOwned for T
where T: Clone,

impl<T, U> TryFrom<U> for T
where U: Into<T>,

impl<T, U> TryInto<U> for T
where U: TryFrom<T>,