rust_tokenizers-2.0.5
- rust_tokenizers 2.0.5
- Docs.rs crate page
- Apache-2.0
- Links
- Repository
- crates.io
- Source
- Owners
- guillaume-be
- Dependencies
- csv ^1.1 normal
  itertools ^0.8.2 normal
  lazy_static ^1.4.0 normal
  rayon ^1.2.1 normal
  regex ^1.3.1 normal
  serde_json ^1.0.44 normal
  unicode-normalization ^0.1.8 normal
  tempfile ^3.1.0 dev
- Versions
Go to latest version
Platform
Feature flags

Rust

☰

[−] List of all items

Structs

preprocessing::adapters::Example
preprocessing::tokenizer::base_tokenizer::BaseTokenizer
preprocessing::tokenizer::base_tokenizer::TokenizedInput
preprocessing::tokenizer::bert_tokenizer::BertTokenizer
preprocessing::tokenizer::ctrl_tokenizer::CtrlTokenizer
preprocessing::tokenizer::gpt2_tokenizer::Gpt2Tokenizer
preprocessing::tokenizer::openai_gpt_tokenizer::OpenAiGptTokenizer
preprocessing::tokenizer::roberta_tokenizer::RobertaTokenizer
preprocessing::vocab::base_vocab::BaseVocab
preprocessing::vocab::bert_vocab::BertVocab
preprocessing::vocab::bpe_vocab::BpePairRef
preprocessing::vocab::bpe_vocab::BpePairVocab
preprocessing::vocab::gpt2_vocab::Gpt2Vocab
preprocessing::vocab::openai_gpt_vocab::OpenAiGptVocab
preprocessing::vocab::roberta_vocab::RobertaVocab

Enums

preprocessing::adapters::Label
preprocessing::tokenizer::base_tokenizer::TruncationStrategy

Traits

preprocessing::tokenizer::base_tokenizer::MultiThreadedTokenizer
preprocessing::tokenizer::base_tokenizer::Tokenizer
preprocessing::vocab::base_vocab::Vocab

Functions

preprocessing::adapters::read_sst2
preprocessing::tokenizer::tokenization_utils::bpe
preprocessing::tokenizer::tokenization_utils::clean_text
preprocessing::tokenizer::tokenization_utils::ctrl_bpe
preprocessing::tokenizer::tokenization_utils::get_pairs
preprocessing::tokenizer::tokenization_utils::group_common_pairs
preprocessing::tokenizer::tokenization_utils::is_control
preprocessing::tokenizer::tokenization_utils::is_punctuation
preprocessing::tokenizer::tokenization_utils::is_whitespace
preprocessing::tokenizer::tokenization_utils::openai_gpt_bpe
preprocessing::tokenizer::tokenization_utils::split_on_punct
preprocessing::tokenizer::tokenization_utils::split_on_special_tokens
preprocessing::tokenizer::tokenization_utils::strip_accents
preprocessing::tokenizer::tokenization_utils::tokenize_cjk_chars
preprocessing::tokenizer::tokenization_utils::tokenize_wordpiece
preprocessing::tokenizer::tokenization_utils::truncate_sequences
preprocessing::tokenizer::tokenization_utils::whitespace_tokenize
preprocessing::vocab::base_vocab::swap_key_values