Expand description
§japanese-text
日本語テキスト正規化のための軽量なRustライブラリ
§特徴
- 全角⇔半角変換(ASCII文字)
- カタカナ⇔ひらがな変換
- Unicode正規化と日本語向け正規化をまとめて適用できるAPI
§使用例
use japanese_text::*;
// 全角→半角変換
assert_eq!(to_half_width("ABC123"), "ABC123");
// 半角→全角変換
assert_eq!(to_full_width("ABC123"), "ABC123");
// カタカナ→ひらがな変換
assert_eq!(to_hiragana("カタカナ"), "かたかな");
// ひらがな→カタカナ変換
assert_eq!(to_katakana("ひらがな"), "ヒラガナ");Structs§
- Character
Type Ratios - 文字種ごとの比率。
- Character
Types - 文字列内の各文字種の数をカウントします。
- Normalize
Options - 一括正規化のオプション。
- Normalizer
- 複数の正規化処理をまとめて適用するビルダー。
Enums§
- Unicode
Normalization Form - Unicode正規化形式。
- Whitespace
Mode - 空白正規化の方式。
Functions§
- character_
type_ ratios - 文字列内の各文字種の比率を計算します。
- combine_
dakuten - 濁点・半濁点の結合文字を合成済み文字に変換します。
- count_
character_ types - decompose_
dakuten - 濁点・半濁点付き文字を基底文字と結合文字に分解します。
- expand_
iteration_ marks - 繰り返し記号を展開します。
- extract_
ascii - ASCII文字だけを抽出します。
- extract_
japanese - 日本語文字だけを抽出します。
- full_
width_ katakana_ to_ half_ width - 全角カタカナを半角カタカナに変換します。
- half_
width_ katakana_ to_ full_ width - 半角カタカナを全角カタカナに変換します。
- has_
mixed_ scripts - ひらがな・カタカナ・漢字・ASCIIのうち複数種類が混在しているかを判定します。
- is_
full_ width - 文字が全角文字かどうかを判定します。
- is_
half_ width_ katakana - 文字が半角カタカナかどうかを判定します。
- is_
hiragana - 文字がひらがなかどうかを判定します。
- is_
kanji - 文字が漢字(CJK統合漢字)かどうかを判定します。
- is_
katakana - 文字がカタカナかどうかを判定します。
- is_
mostly_ japanese - 日本語文字が指定した比率以上かを判定します。
- normalize
- 既定オプションでテキストを正規化します。
- normalize_
brackets_ and_ quotes - 括弧と引用符を日本語表記に統一します。
- normalize_
nfc - Unicode NFC正規化を適用します。
- normalize_
nfd - Unicode NFD正規化を適用します。
- normalize_
nfkc - Unicode NFKC正規化を適用します。
- normalize_
nfkd - Unicode NFKD正規化を適用します。
- normalize_
prolonged_ sound - 長音記号を正規化します(ー、〜、~などを統一)。
- normalize_
punctuation - 句読点を日本語表記に統一します。
- normalize_
symbols - 長音、波ダッシュ、マイナス、ハイフン類を正規化します。
- normalize_
whitespace - 文字列内の空白文字を正規化します(全角スペース、タブなどを半角スペースに統一)。
- normalize_
with_ options - 指定したオプションでテキストを正規化します。
- old_
kanji_ to_ new - 代表的な旧字体を新字体に変換します。
- remove_
symbols - Unicodeの記号・句読点に分類される文字を削除します。
- remove_
variation_ selectors - 異体字セレクタを削除します。
- to_
full_ width - 半角ASCII文字を全角に変換します。
- to_
half_ width - 全角ASCII文字を半角に変換します。
- to_
hiragana - カタカナをひらがなに変換します。
- to_
katakana - ひらがなをカタカナに変換します。