hodu 0.2.4

A user-friendly ML framework built in Rust for rapid prototyping and embedded deployment
Documentation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
# Builder와 Script 가이드

## 개요

Hodu는 두 가지 실행 모드를 제공합니다:

1. **동적 실행 (Dynamic Execution)**: 연산을 즉시 실행
2. **정적 실행 (Static Execution)**: Builder로 그래프를 구성한 후 Script로 컴파일하여 실행

**Builder**는 연산 그래프를 정의하는 도구이고, **Script**는 그 그래프를 컴파일하고 실행하는 객체입니다.

## Builder란?

Builder는 연산 그래프를 단계적으로 구성하는 컨텍스트를 제공합니다.

### Builder 생명주기

```rust
use hodu::prelude::*;

// 1. Builder 생성
let builder = Builder::new("my_script".to_string());

// 2. Builder 시작 (컨텍스트 활성화)
builder.start()?;

// 3. 이 구간에서 모든 텐서 연산이 그래프에 기록됨
let x = Tensor::input("x", &[2, 3])?;
let y = Tensor::input("y", &[3, 4])?;
let result = x.matmul(&y)?;

// 4. 출력 등록
builder.add_output("result", result)?;

// 5. Builder 종료 (컨텍스트 비활성화)
builder.end()?;

// 6. Script 빌드
let mut script = builder.build()?;
```

### Builder 주요 메서드

#### Builder::new()

새로운 Builder를 생성합니다:

```rust
let builder = Builder::new("computation_name".to_string());
```

#### builder.start()

Builder 컨텍스트를 활성화합니다. 이후 모든 텐서 연산이 그래프에 기록됩니다:

```rust
builder.start()?;

// 이제 연산들이 기록됨
let a = Tensor::input("a", &[10])?;
let b = a.mul_scalar(2.0)?;
```

**중요**: `start()` 호출 후에만 `Tensor::input()` 사용 가능합니다.

#### builder.add_input()

입력 placeholder를 명시적으로 등록합니다 (보통 `Tensor::input()`이 자동으로 호출):

```rust
let x = Tensor::input("x", &[10, 20])?;  // 자동으로 add_input 호출됨
```

#### builder.add_output()

출력 텐서를 등록합니다:

```rust
builder.add_output("result", result_tensor)?;
builder.add_output("loss", loss_tensor)?;
```

여러 출력을 등록할 수 있습니다.

#### builder.end()

Builder 컨텍스트를 비활성화합니다:

```rust
builder.end()?;

// 이제 연산들이 더 이상 그래프에 기록되지 않음
let c = Tensor::randn(&[5], 0.0, 1.0)?;  // 동적 실행
```

#### builder.build()

기록된 그래프로부터 Script를 생성합니다:

```rust
let mut script = builder.build()?;
```

## Script란?

Script는 Builder로 정의된 연산 그래프를 컴파일하여 최적화된 실행을 가능하게 하는 객체입니다. 동적 실행 모드와 달리 연산들을 먼저 IR(Intermediate Representation)로 변환한 후, 백엔드(HODU, XLA)에서 최적화하여 실행합니다.

## 기본 사용법

### 1. Script 빌드

```rust
use hodu::prelude::*;

// Builder 생성 및 시작
let builder = Builder::new("my_script".to_string());
builder.start()?;

// Script 모드에서 연산 정의
let x = Tensor::input("x", &[2, 3])?;
let y = Tensor::input("y", &[3, 4])?;
let result = x.matmul(&y)?;

// 출력 등록
builder.add_output("result", result)?;
builder.end()?;

// Script 빌드
let mut script = builder.build()?;
```

### 2. Script 실행

```rust
// 입력 데이터 준비
let x_data = Tensor::randn(&[2, 3], DType::F32)?;
let y_data = Tensor::randn(&[3, 4], DType::F32)?;

// 입력 설정
script.set_input("x", x_data);
script.set_input("y", y_data);

// 실행
let outputs = script.run()?;
let result = &outputs["result"];
```

## 컴파일 캐싱

Script는 컴파일 결과를 캐싱하여 반복 실행 시 성능을 향상시킵니다.

### 자동 컴파일

```rust
let mut script = builder.build()?;

// 첫 run() 호출 시 자동으로 컴파일
script.set_input("x", x_data);
let output1 = script.run()?;  // 컴파일 + 실행

// 두 번째 run()부터는 캐시된 컴파일 결과 사용
script.set_input("x", x_data2);
let output2 = script.run()?;  // 실행만
```

### 명시적 컴파일

```rust
let mut script = builder.build()?;

// 명시적으로 미리 컴파일 (warm-up)
println!("Compiling...");
script.compile()?;
println!("Compilation done!");

// 이후 run()은 실행만 수행
script.set_input("x", x_data);
let output = script.run()?;  // 실행만
```

### 컴파일 시간 측정

```rust
use std::time::Instant;

let mut script = builder.build()?;
script.set_input("x", x_data);

// 컴파일 시간 측정
let compile_start = Instant::now();
script.compile()?;
let compile_time = compile_start.elapsed();
println!("Compilation: {:?}", compile_time);

// 실행 시간 측정
let run_start = Instant::now();
let output = script.run()?;
let run_time = run_start.elapsed();
println!("Execution: {:?}", run_time);
```

## 컴파일러 선택

Static Execution은 두 가지 컴파일러를 지원합니다:

### HODU 컴파일러 (기본)

```rust
let mut script = builder.build()?;
script.set_compiler(Compiler::HODU);  // 기본값
```

**특징**:
- 자체 구현으로 빠른 컴파일 속도
- Constant caching으로 최적화된 실행 (특히 Metal GPU)
- `no_std` 환경 지원

### XLA 컴파일러

```rust
#[cfg(feature = "xla")]
{
    let mut script = builder.build()?;
    script.set_compiler(Compiler::XLA);
}
```

**특징**:
- 고급 그래프 최적화
- Compilation caching으로 반복 실행 시 빠른 성능
- JAX와 비교 가능한 성능

**주의**: 컴파일러를 변경하면 캐시된 컴파일 결과가 무효화됩니다.

```rust
let mut script = builder.build()?;
script.compile()?;  // HODU로 컴파일

script.set_compiler(Compiler::XLA);  // 캐시 무효화!
// 다음 run()에서 XLA로 재컴파일됨
```

## Script 모드에서 Training

Script 모드에서 training loop를 작성할 때는 주의가 필요합니다.

### Training Loop 예제

```rust
let builder = Builder::new("training".to_string());
builder.start()?;

let mut linear = Linear::new(3, 1, true, DType::F32)?;
let mse_loss = MSE::new();
let mut optimizer = SGD::new(0.01);

let input = Tensor::input("input", &[100, 3])?;
let target = Tensor::input("target", &[100, 1])?;

let epochs = 1000;
let mut final_loss = Tensor::full(&[], 0.0)?;

for _ in 0..epochs {
    let pred = linear.forward(&input)?;
    let loss = mse_loss.forward((&pred, &target))?;

    // Backward - gradient 계산
    loss.backward()?;

    // Optimizer update
    optimizer.step(&mut linear.parameters())?;
    optimizer.zero_grad(&mut linear.parameters())?;

    final_loss = loss;
}

builder.add_output("loss", final_loss)?;
builder.end()?;

let mut script = builder.build()?;
```

### Training Script의 특징

1. **Loop Unrolling**: Script 빌드 시 loop가 완전히 펼쳐집니다.
   - 1000 epoch = 1000개의 forward + backward + update 연산이 그래프에 기록
   - 그래프 크기가 매우 커질 수 있음

2. **Gradient Tape**: Builder 모드에서도 gradient tape가 작동합니다.
   - `backward()`는 실제로 gradient를 계산하고 tape에 기록
   - `requires_grad=true`인 연산은 반드시 tape에 기록되어야 함

3. **컴파일 시간**: 큰 그래프는 컴파일에 오랜 시간이 걸립니다.
   - XLA: 최적화 과정이 복잡하여 시간이 더 오래 걸림
   - HODU: 상대적으로 빠른 컴파일

## 주의사항

### 1. Script는 Inference 최적화에 적합

Training보다는 **추론(inference)**에 더 적합합니다:

```rust
// Inference용 Script
let builder = Builder::new("inference".to_string());
builder.start()?;

let input = Tensor::input("input", &[1, 784])?;
let output = model.forward(&input)?;  // requires_grad=false

builder.add_output("output", output)?;
builder.end()?;

let mut script = builder.build()?;
script.compile()?;  // 빠른 컴파일

// 여러 번 재사용
for batch in batches {
    script.set_input("input", batch);
    let result = script.run()?;  // 빠른 실행
}
```

### 2. 캐시 무효화 조건

다음의 경우 컴파일 캐시가 무효화됩니다:

- `set_compiler()` 호출
- `set_device()` 호출

```rust
let mut script = builder.build()?;
script.compile()?;  // 컴파일 완료

script.set_device(Device::CUDA(0));  // 캐시 무효화!
// 다음 run()에서 재컴파일
```

**참고**: HODU 컴파일러는 compile time에 constant를 target device로 미리 변환하여 캐싱하므로, Metal GPU 등에서 매우 빠른 실행 성능을 제공합니다.

### 3. Script 재사용

같은 Script를 다른 입력으로 여러 번 실행 가능:

```rust
let mut script = builder.build()?;
script.compile()?;  // 한 번만 컴파일

for i in 0..100 {
    let input_data = generate_input(i);
    script.clear_inputs();  // 이전 입력 제거
    script.set_input("x", input_data);
    let output = script.run()?;  // 빠른 실행
}
```

## 성능 팁

### 1. 명시적 컴파일로 Warm-up

```rust
// 프로그램 시작 시 미리 컴파일
let mut script = builder.build()?;
script.set_input("x", dummy_input);
script.compile()?;  // Warm-up

// 실제 데이터 처리는 빠르게
for batch in data {
    script.set_input("x", batch);
    let output = script.run()?;
}
```

### 2. 컴파일러 선택

- **HODU**: 빠른 컴파일, Constant caching으로 Metal GPU 최적화
- **XLA**: 고급 최적화, Compilation caching으로 반복 실행 시 빠른 성능

```rust
// Metal GPU: HODU 추천 (constant caching)
script.set_compiler(Compiler::HODU);
script.set_device(Device::Metal);

// CPU with XLA: XLA 추천 (고급 최적화)
#[cfg(feature = "xla")]
{
    script.set_compiler(Compiler::XLA);
    script.set_device(Device::CPU);
    script.compile()?;  // 한 번 컴파일
    // 이후 실행은 JAX와 비슷한 성능
}
```

### 3. Training은 동적 모드 사용

큰 training loop는 Script보다 동적 실행이 더 효율적:

```rust
// Script 없이 직접 실행
let mut optimizer = SGD::new(0.01);

for epoch in 0..1000 {
    let pred = model.forward(&input)?;
    let loss = compute_loss(&pred, &target)?;
    loss.backward()?;
    optimizer.step(&mut model.parameters())?;
    optimizer.zero_grad(&mut model.parameters())?;
}
```

## Script 저장 및 로드

```rust
#[cfg(all(feature = "serde", feature = "std"))]
{
    // Script 저장
    script.save("model.hoduscript")?;

    // Script 로드
    let mut loaded_script = Script::load("model.hoduscript")?;
    loaded_script.set_compiler(Compiler::XLA);
    loaded_script.compile()?;

    // 사용
    loaded_script.set_input("x", input_data);
    let output = loaded_script.run()?;
}
```

## 요약

| 항목 | 설명 |
|------|------|
| **용도** | Inference 최적화, 반복 실행되는 고정 그래프 |
| **장점** | 컴파일 후 빠른 실행, 컴파일러별 최적화 (HODU: constant caching, XLA: compilation caching) |
| **단점** | 컴파일 시간, 큰 training loop 비효율적 |
| **캐싱** | `compile()` 결과 자동 캐싱, 반복 실행 시 재사용 |
| **무효화** | `set_compiler()`, `set_device()` 호출 시 |
| **Gradient** | Training 가능하지만 동적 모드 권장 |