Struct Tokenizer

Source

pub struct Tokenizer { /* private fields */ }

Expand description

Tokenizes text inputs into sequences of token IDs that can be fed to a machine learning model.

Tokenizer wraps a Model which handles specific methods of encoding of individual sequences (eg. WordPiece, Byte Pair Encoding, Unigram) and adds common functionality such as injecting special tokens, splitting sequences into overlapping chunks and truncating long sequences.

Tokenizer

Struct Tokenizer Copy item path

Implementations§

impl Tokenizer

pub fn new<M: Model + 'static>( model: M, options: TokenizerOptions<'_>, ) -> Tokenizer

pub fn with_normalizer(self, normalizer: Box<dyn Normalizer>) -> Self

pub fn with_pre_tokenizer(self, pre_tokenizer: Box<dyn PreTokenizer>) -> Self

pub fn from_file<P: AsRef<Path>>(path: P) -> Result<Tokenizer, FromJsonError>

pub fn from_json(json: &str) -> Result<Tokenizer, FromJsonError>

pub fn encoder(&self) -> &dyn Model

pub fn model(&self) -> &dyn Model

pub fn get_token_id(&self, text: &str) -> Result<TokenId, TokenizerError>

pub fn encode<'a, I: Into<EncoderInput<'a>>>( &self, input: I, options: Option<EncodeOptions>, ) -> Result<Encoded<'a>, TokenizerError>

pub fn encode_chunks<'a>( &self, input: EncoderInput<'a>, options: EncodeOptions, ) -> Result<Vec<Encoded<'a>>, TokenizerError>

pub fn decode(&self, ids: &[TokenId]) -> Result<String, TokenizerError>

Auto Trait Implementations§

impl Freeze for Tokenizer

impl !RefUnwindSafe for Tokenizer

impl !Send for Tokenizer

impl !Sync for Tokenizer

impl Unpin for Tokenizer

impl !UnwindSafe for Tokenizer

Blanket Implementations§

impl<T> Any for Twhere T: 'static + ?Sized,

fn type_id(&self) -> TypeId

impl<T> Borrow<T> for Twhere T: ?Sized,

fn borrow(&self) -> &T

impl<T> BorrowMut<T> for Twhere T: ?Sized,

fn borrow_mut(&mut self) -> &mut T

impl<T> From<T> for T

fn from(t: T) -> T

impl<T, U> Into<U> for Twhere U: From<T>,

fn into(self) -> U

impl<T, U> TryFrom<U> for Twhere U: Into<T>,

type Error = Infallible

fn try_from(value: U) -> Result<T, <T as TryFrom<U>>::Error>

impl<T, U> TryInto<U> for Twhere U: TryFrom<T>,

type Error = <U as TryFrom<T>>::Error

fn try_into(self) -> Result<U, <U as TryFrom<T>>::Error>

Struct Tokenizer

impl<T> Any for T
where T: 'static + ?Sized,

impl<T> Borrow<T> for T
where T: ?Sized,

impl<T> BorrowMut<T> for T
where T: ?Sized,

impl<T, U> Into<U> for T
where U: From<T>,

impl<T, U> TryFrom<U> for T
where U: Into<T>,

impl<T, U> TryInto<U> for T
where U: TryFrom<T>,