Skip to main content

Crate japanese_text

Crate japanese_text 

Source
Expand description

§japanese-text

日本語テキスト正規化のための軽量なRustライブラリ

§特徴

  • 全角⇔半角変換(ASCII文字)
  • カタカナ⇔ひらがな変換
  • Unicode正規化と日本語向け正規化をまとめて適用できるAPI

§使用例

use japanese_text::*;

// 全角→半角変換
assert_eq!(to_half_width("ABC123"), "ABC123");

// 半角→全角変換
assert_eq!(to_full_width("ABC123"), "ABC123");

// カタカナ→ひらがな変換
assert_eq!(to_hiragana("カタカナ"), "かたかな");

// ひらがな→カタカナ変換
assert_eq!(to_katakana("ひらがな"), "ヒラガナ");

Structs§

CharacterTypeRatios
文字種ごとの比率。
CharacterTypes
文字列内の各文字種の数をカウントします。
NormalizeOptions
一括正規化のオプション。
Normalizer
複数の正規化処理をまとめて適用するビルダー。

Enums§

UnicodeNormalizationForm
Unicode正規化形式。
WhitespaceMode
空白正規化の方式。

Functions§

character_type_ratios
文字列内の各文字種の比率を計算します。
combine_dakuten
濁点・半濁点の結合文字を合成済み文字に変換します。
count_character_types
decompose_dakuten
濁点・半濁点付き文字を基底文字と結合文字に分解します。
expand_iteration_marks
繰り返し記号を展開します。
extract_ascii
ASCII文字だけを抽出します。
extract_japanese
日本語文字だけを抽出します。
full_width_katakana_to_half_width
全角カタカナを半角カタカナに変換します。
half_width_katakana_to_full_width
半角カタカナを全角カタカナに変換します。
has_mixed_scripts
ひらがな・カタカナ・漢字・ASCIIのうち複数種類が混在しているかを判定します。
is_full_width
文字が全角文字かどうかを判定します。
is_half_width_katakana
文字が半角カタカナかどうかを判定します。
is_hiragana
文字がひらがなかどうかを判定します。
is_kanji
文字が漢字(CJK統合漢字)かどうかを判定します。
is_katakana
文字がカタカナかどうかを判定します。
is_mostly_japanese
日本語文字が指定した比率以上かを判定します。
normalize
既定オプションでテキストを正規化します。
normalize_brackets_and_quotes
括弧と引用符を日本語表記に統一します。
normalize_nfc
Unicode NFC正規化を適用します。
normalize_nfd
Unicode NFD正規化を適用します。
normalize_nfkc
Unicode NFKC正規化を適用します。
normalize_nfkd
Unicode NFKD正規化を適用します。
normalize_prolonged_sound
長音記号を正規化します(ー、〜、~などを統一)。
normalize_punctuation
句読点を日本語表記に統一します。
normalize_symbols
長音、波ダッシュ、マイナス、ハイフン類を正規化します。
normalize_whitespace
文字列内の空白文字を正規化します(全角スペース、タブなどを半角スペースに統一)。
normalize_with_options
指定したオプションでテキストを正規化します。
old_kanji_to_new
代表的な旧字体を新字体に変換します。
remove_symbols
Unicodeの記号・句読点に分類される文字を削除します。
remove_variation_selectors
異体字セレクタを削除します。
to_full_width
半角ASCII文字を全角に変換します。
to_half_width
全角ASCII文字を半角に変換します。
to_hiragana
カタカナをひらがなに変換します。
to_katakana
ひらがなをカタカナに変換します。