1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
//! # mecab-ko
//!
//! 한국어 형태소 분석기 - MeCab-Ko의 순수 Rust 구현
//!
//! ## 소개
//!
//! `mecab-ko`는 한국어 형태소 분석을 위한 라이브러리입니다.
//! 은전한닢(mecab-ko)의 순수 Rust 재구현으로, 빠르고 안전한 형태소 분석을 제공합니다.
//!
//! ## 주요 특징
//!
//! - **순수 Rust**: unsafe 코드 없이 메모리 안전성 보장
//! - **한국어 최적화**: 띄어쓰기 패널티, 한글 자모 처리
//! - **고성능**: Zero-copy 사전, 효율적인 Viterbi 구현
//! - **유연성**: 사용자 사전, 필터 시스템 지원
//!
//! ## 빠른 시작
//!
//! ```rust,no_run
//! use mecab_ko::Tokenizer;
//!
//! let mut tokenizer = Tokenizer::new().unwrap();
//!
//! // 기본 형태소 분석
//! let tokens = tokenizer.tokenize("아버지가방에들어가신다");
//! for token in tokens {
//! println!("{}\t{}", token.surface, token.pos);
//! }
//!
//! // 분리만 (wakati)
//! let words = tokenizer.wakati("안녕하세요");
//! println!("{:?}", words); // ["안녕", "하", "세요"]
//!
//! // 명사만 추출
//! let nouns = tokenizer.nouns("오늘 날씨가 좋습니다");
//! println!("{:?}", nouns); // ["오늘", "날씨"]
//! ```
//!
//! ## 사용자 사전 추가
//!
//! ```rust,no_run
//! use mecab_ko::Tokenizer;
//! use mecab_ko::dict::UserDictionary;
//!
//! let mut user_dict = UserDictionary::new();
//! user_dict.add_entry("챗GPT", "NNP", Some(-2000), None);
//! user_dict.add_entry("딥러닝", "NNG", Some(-1500), None);
//!
//! let tokenizer = Tokenizer::new().unwrap()
//! .with_user_dict(user_dict);
//! ```
//!
//! ## 성능 팁
//!
//! 1. **토크나이저 재사용**: `Tokenizer`는 내부에 Lattice를 재사용하므로 매번 새로 생성하지 마세요.
//! 2. **배치 처리**: 많은 텍스트를 처리할 때는 `mecab_ko_core::BatchTokenizer`를 사용하세요.
//! 3. **캐싱**: 반복되는 입력이 있으면 `mecab_ko_core::CachingTokenizer`를 활용하세요.
//!
//! ## v0.4.0 새 기능
//!
//! ### 세종 코퍼스 호환 출력
//!
//! 복합 형태소를 세종 코퍼스 표준 형식으로 분리합니다.
//!
//! ```rust,no_run
//! use mecab_ko::Tokenizer;
//! use mecab_ko::sejong::SejongConverter;
//!
//! let mut tokenizer = Tokenizer::new().unwrap();
//! let tokens = tokenizer.tokenize("나는 학교에 갔다");
//!
//! // 세종 형식 변환
//! let converter = SejongConverter::new();
//! let sejong_tokens = converter.convert_tokens(&tokens);
//!
//! for token in sejong_tokens {
//! println!("{}/{}", token.surface, token.pos);
//! }
//! // 출력: 나/NP 는/JX 학교/NNG 에/JKB 갔다오/VV ㄴ/ETM
//! ```
//!
//! ### 분해 정보 추출
//!
//! mecab-ko-dic의 분해 컬럼(12번째)을 활용합니다.
//!
//! ```rust,no_run
//! use mecab_ko::sejong::SejongConverter;
//!
//! // 분해 정보 파싱
//! let decomp = SejongConverter::parse_decomposition("가깝/VA/*+아/EC/*");
//! // 결과: [("가깝", "VA"), ("아", "EC")]
//! ```
//!
//! ## 고급 기능 (v0.3.0+)
//!
//! ### N-best 경로 탐색
//!
//! ```rust,no_run
//! use mecab_ko::{Tokenizer, ImprovedNbestSearcher};
//!
//! let tokenizer = Tokenizer::new().unwrap();
//! let nbest = ImprovedNbestSearcher::new(5); // 상위 5개 경로
//! ```
//!
//! ### 분석 모드
//!
//! ```rust,no_run
//! use mecab_ko::{AnalysisMode, PosFilter};
//!
//! // 명사만 추출
//! let filter = PosFilter::new()
//! .include_prefix("NNG")
//! .include_prefix("NNP");
//! ```
//!
//! ### 토큰화 캐싱
//!
//! ```rust,no_run
//! use mecab_ko::{Tokenizer, CachingTokenizer, CacheConfig};
//!
//! let tokenizer = Tokenizer::new().unwrap();
//! let cached = CachingTokenizer::new(tokenizer, CacheConfig::default());
//! ```
//!
//! ### 배치/스트리밍 처리
//!
//! ```rust,no_run
//! use mecab_ko::BatchTokenizer;
//!
//! // 병렬 배치 처리 (기본 스레드 수)
//! let batch = BatchTokenizer::new().unwrap();
//! ```
//!
//! ## 모듈 구조
//!
//! - [`tokenizer`]: 형태소 분석 메인 인터페이스
//! - [`pos_tag`]: 품사 태그 정의 (세종 품사 체계)
//! - [`hangul`]: 한글 자모 처리 유틸리티
//! - [`dict`]: 사전 로딩 및 검색
//!
//! ## Feature Flags
//!
//! - `builder`: 사전 빌더 기능 포함
// Re-export core types
pub use ;
// Re-export v0.3.0 features
pub use ;
// Re-export hangul utilities
pub use ;
// Re-export dictionary types
pub use ;
/// 한글 자모 처리
///
/// 한글 음절의 자모 분리/결합, 종성 판별 등을 제공합니다.
/// 세종 코퍼스 호환 (v0.4.0+)
///
/// 복합 형태소를 세종 코퍼스 표준 형식으로 변환합니다.
/// 품사 태그 정의
///
/// 세종 품사 태그 체계 + mecab-ko-dic 확장 태그
/// 형태소 분석기
///
/// 메인 형태소 분석 인터페이스
/// 형태소 사전
///
/// 사전 로딩, 검색, 연접 비용 조회
/// 사전 빌더 (builder feature 활성화 시)
/// 버전 정보
pub const VERSION: &str = env!;