buddy-slab-allocator 0.3.0

Memory allocator with Buddy and Slab allocation
Documentation
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
# buddy-slab-allocator 设计文档

本文档面向阅读和维护当前实现的开发者,描述这个分配器在 `buddy + slab` 两级结构下的核心数据结构、初始化过程、`add_region` 热添加流程、`alloc` / `dealloc` 路径,以及多核并发场景下的协作方式。

文中描述以当前仓库实现为准,重点对应以下模块:

- `src/global.rs`
- `src/buddy/mod.rs`
- `src/slab/mod.rs`
- `src/slab/cache.rs`
- `src/slab/page.rs`

## 1. 设计目标

这个分配器服务于 `no_std`、内核或嵌入式环境,目标是同时满足两类需求:

- 页级分配:按页返回连续内存,支持 power-of-two 分裂和合并。
- 小对象分配:对 `<= 2048` 字节的对象提供更低碎片、更低分配开销的快速路径。

因此整体采用两级结构:

- 后端:`BuddyAllocator`
  负责管理一个或多个 section 中的页。
- 前端:`SlabAllocator`
  负责管理不同 size class 的小对象。
- 门面:`GlobalAllocator`
  统一对外暴露 `alloc` / `dealloc` / `alloc_pages` / `dealloc_pages` 等接口。

## 2. 总体结构

```mermaid
flowchart TD
    GA[GlobalAllocator] --> B[BuddyAllocator]
    GA --> PCS[per-CPU SlabAllocator[]]
    GA --> OS[OsImpl]

    PCS --> SC8[SlabCache: 8B]
    PCS --> SC64[SlabCache: 64B]
    PCS --> SC2K[SlabCache: 2048B]

    SC8 --> SPH[SlabPageHeader]
    SC64 --> SPH
    SC2K --> SPH

    B --> SH[BuddySection intrusive list]
    SH --> PM[PageMeta[]]
    SH --> FL[free_lists by order]
```

### 2.1 地址语义

当前实现的主语义是“虚拟地址”:

- `GlobalAllocator::init()` 接收的是一段可写 `&mut [u8]` 区域。
- `BuddyAllocator` 管理的是一段连续虚拟地址区间。
- `alloc_pages()``alloc()` 返回的也都是虚拟地址。

物理地址只在 `alloc_pages_lowmem()` 里参与判断:

- 候选块的虚拟地址通过 `OsImpl::virt_to_phys()` 翻译成物理地址。
- 只有物理地址低于 `4 GiB` 的块才会被当作 DMA32 候选。

### 2.2 容量统计语义

当前公开了两类整体容量统计:

- `managed_bytes`
  所有 section 中可分配 heap 的总字节数,不包含 region 前缀 metadata。
- `allocated_bytes`
  后端页占用字节数,按 `managed_bytes - free_pages * PAGE_SIZE` 计算。

因此 `allocated_bytes` 的口径是“页后端已经占住多少字节”,不是用户请求的 `layout.size()` 精确累加。
它会包含:

- slab 页
- empty slab cache 保留页
- 对齐放大
- buddy / slab 的内部碎片

## 3. 初始化、追加 Region 与内存布局

当前实现支持两种 region 进入 allocator 的方式:

- `GlobalAllocator::init(region, cpu_count, os)`
  注册首个 region,并初始化唯一一份 per-CPU slab 槽位。
- `GlobalAllocator::add_region(region)`
  在运行时追加新的 region,只扩展 buddy 后端,不再重复创建 per-CPU slab。

对 buddy 而言,每个 region 都会被拆成:

- 前缀:region 自带元数据
- 后缀:该 section 的 managed heap

首个 global region 的元数据前缀包含:

- `BuddySection`
- `PageMeta[]`
- `per_cpu_slabs: [SpinMutex<SlabAllocator>; cpu_count]`

后续追加 region 的元数据前缀只包含:

- `BuddySection`
- `PageMeta[]`

```mermaid
flowchart LR
    A[region start] --> B[aligned section_start]
    B --> C[BuddySection]
    C --> D[PageMeta array]
    D --> E{first global region?}
    E -- Yes --> F[per-CPU SlabAllocator slots]
    E -- No --> G[no slab slots here]
    F --> H[padding to PAGE_SIZE]
    G --> H
    H --> I[section heap start]
    I --> J[managed heap of this section]
```

### 3.1 初始化步骤

`GlobalAllocator::init()` 的主要步骤如下:

1. 根据 `region.len()``cpu_count` 计算首个 section 最多能管理多少页。
2. 在 region 前缀预留 `BuddySection + PageMeta[] + per_cpu_slabs`3. 选择一个页对齐的 section heap 起点。
4. 将首个 section 注册进 `BuddyAllocator`5. 原地构造每个 CPU 对应的 `SpinMutex<SlabAllocator>`6.`per_cpu_slabs``cpu_count``os` 写入 `GlobalAllocator`
`GlobalAllocator::add_region()` 的步骤更简单:

1. 校验 allocator 已初始化。
2. 在新 region 前缀预留 `BuddySection + PageMeta[]`3. 计算该 section 的可管理 heap。
4. 将该 section 追加到 buddy 的 intrusive list 尾部。

### 3.2 为什么 metadata 放在 region 前缀

这样做有几个好处:

- 不需要额外的启动期堆分配。
- `BuddySection``PageMeta[]` 都跟随 region 自身生命周期。
- `per_cpu_slabs` 的内存来源和被管理堆绑在一起,部署简单。
- 不需要预先声明最大 section 数量。

代价是:

- metadata 会消耗一部分可分配空间。
- 每个 section 的 heap 起点都可能晚于各自的 region 起点。
- section 查询与地址归属定位当前采用线性扫描。

## 4. BuddyAllocator 设计

`BuddyAllocator` 管理页级内存,是整个系统的共享后端。它的基本单位不再是单一 heap,而是一个按注册顺序串起来的 section 链表。

### 4.1 核心数据结构

```mermaid
classDiagram
    class BuddyAllocator {
        +sections_head: *mut BuddySection
        +section_count: usize
        +os: Option<&dyn OsImpl>
    }

    class BuddySection {
        +next: *mut BuddySection
        +meta: *mut PageMeta
        +heap_start: usize
        +heap_size: usize
        +free_lists: [u32; MAX_ORDER+1]
        +free_pages: usize
        +total_pages: usize
    }

    class PageFlags {
        <<enum>>
        Free
        Allocated
        Slab
    }
```

说明:

- `BuddyAllocator` 自身只维护 section 链表头和 section 数量。
- 每个 `BuddySection` 都拥有自己的一组 `PageMeta[]``free_lists`- `PageMeta` 仍然是每页一项的外部元数据。
- 同一 section 内按 buddy 规则拆分和合并,section 之间不跨界合并。

### 4.2 buddy 初始化

初始化某个 section 时,buddy 会从低地址到高地址扫描该 section 的整段 heap:

- 每次尽量切出“当前地址自然对齐、且仍然放得下”的最大 order 块。
- 将该块挂到对应 order 的 free list。

这一步的结果是:

- 该 section 中的所有页都被覆盖。
- 该 section 的 free list 从一开始就处于可分裂、可合并的标准 buddy 形态。

### 4.3 页分配流程

```mermaid
flowchart TD
    A[alloc_pages(count, align)] --> B[计算 order]
    B --> C[计算 align_order]
    C --> D[effective_order = max(order, align_order)]
    D --> E[按注册顺序扫描 section]
    E --> F[在 section 内从 effective_order 向上找非空 free list]
    F --> G{找到块?}
    G -- 否 --> H[尝试下一个 section]
    H --> I{还有 section?}
    I -- 否 --> J[返回 NoMemory]
    I -- 是 --> F
    G -- 是 --> K[弹出大块]
    K --> L[逐级 split 到目标 order]
    L --> M[标记头页为 Allocated]
    M --> N[返回虚拟地址]
```

注意点:

- `count` 会向上取整到 2 的幂。
- `align` 也会转成对应的 `align_order`- 真正分配的块大小可能大于用户请求。

### 4.4 低地址页分配

`alloc_pages_lowmem()` 的差异在于:

- 不只看 free list 是否有块。
- 还要检查块的物理地址区间是否完全落在 `DMA32_LIMIT` 下方。

流程是:

1. 逐个扫描候选 free list。
2. 对每个候选块调用 `os.virt_to_phys(addr)`3. 计算 `phys + block_bytes <= 4GiB` 是否成立。
4. 找到合格块后执行和普通分配相同的拆分逻辑。

### 4.5 页释放流程

`dealloc_pages(addr, count)` 的关键点是:

- `addr` 必须是原始返回地址。
- 实际释放的 order 以 `PageMeta.order` 为准。
- `count` 主要用于 debug 断言,确保调用者没有传得比真实块更大。

```mermaid
flowchart TD
    A[dealloc_pages(addr, count)] --> B[根据 addr 算出 pfn]
    B --> C[读取 PageMeta.order]
    C --> D[与 buddy pfn 检查是否可合并]
    D --> E{buddy 同 order 且空闲?}
    E -- 是 --> F[从 free list 移除 buddy]
    F --> G[合并并提升 order]
    G --> D
    E -- 否 --> H[将最终块挂回 free list]
```

## 5. SlabAllocator 设计

`SlabAllocator` 不直接申请页,它只管理“已经拿到的 slab page”。

### 5.1 size class

当前固定 9 个 size class:

- 8
- 16
- 32
- 64
- 128
- 256
- 512
- 1024
- 2048

布局规则:

- `layout.size()``layout.align()` 取较大值。
- 选择能容纳它的最小 size class。
- 超过 `2048` 字节则不走 slab。

### 5.2 SlabCache 的三条链

每个 size class 对应一个 `SlabCache`,内部维护三条 intrusive list:

- `partial`
  还有空位的 slab,优先分配。
- `full`
  本地 bitmap 没空位,但可能积累了 remote free。
- `empty`
  所有对象都空闲的 slab。

实现上还有限制:

- 每个 `SlabCache` 最多缓存 1 个空 slab。
- 如果又出现新的空 slab,多出来的那个会还给 buddy。

这也是压力测试里“页数不一定精确回到初始值”的原因之一:每个 CPU、每个 size class 允许保留一个空 slab 作为缓存。

### 5.3 SlabPageHeader

每个 slab page 起始位置都嵌着一个 `SlabPageHeader`。

它包含:

- `magic`
- `size_class`
- `object_count`
- `local_free_count`
- `owner_cpu`
- `slab_bytes`
- `list_prev/list_next`
- `local_bitmap`
- `remote_free_head`
- `remote_free_count`

### 5.4 本地分配

owner CPU 在持有对应 slab 锁时执行本地分配:

1. 先看 `partial` 头 slab。
2. 如果它有 remote free,先 drain 回本地 bitmap。
3. 从 bitmap 找一个空位。
4. 如果分完后满了,把 slab 从 `partial` 挪到 `full`
如果 `partial` 不行,则:

1. `full`,找是否有 slab 因 remote free 重新出现空位。
2. 如果有,把它移回 `partial`3. 还不行就尝试复用 `empty` 中缓存的 slab。
4. 再不行就返回 `NeedsSlab`,要求上层先提供新页。

## 6. GlobalAllocator 的分配路径

`GlobalAllocator` 是真正对外使用的入口。

它把请求分成两类:

- 小对象:走 slab
- 大对象:走 buddy

判断条件:

- `layout.size() <= 2048`
- `layout.align() <= 2048`

满足才走 slab。

### 6.1 alloc 总流程

```mermaid
flowchart TD
    A[alloc(layout)] --> B{已初始化?}
    B -- 否 --> X[NotInitialized]
    B -- 是 --> C{slab eligible?}
    C -- 是 --> D[slab_alloc]
    C -- 否 --> E[large_alloc]
```

### 6.2 小对象分配

```mermaid
sequenceDiagram
    participant Caller
    participant GA as GlobalAllocator
    participant S as per-CPU SlabAllocator
    participant B as BuddyAllocator

    Caller->>GA: alloc(layout)
    GA->>GA: current_cpu_idx()
    GA->>S: lock + alloc(layout)
    alt Slab 命中
        S-->>GA: Allocated(ptr)
        GA-->>Caller: ptr
    else 需要新 slab
        S-->>GA: NeedsSlab(size_class, pages)
        GA->>S: drop lock
        GA->>B: alloc_pages(pages, slab_bytes)
        GA->>B: set_page_flags(addr, Slab)
        GA->>S: lock + add_slab(...)
        GA->>S: alloc(layout)
        S-->>GA: Allocated(ptr)
        GA-->>Caller: ptr
    end
```

这里有一个很重要的锁顺序细节:

- 当 slab 缺页时,`GlobalAllocator` 会先释放 slab 锁,再去拿 buddy 锁。

这样可以避免:

- 持有 slab 锁时阻塞在 buddy 上。
- 未来演化成更复杂锁图时出现循环等待。

### 6.3 大对象分配

大对象路径很直接:

1. 根据 `layout.size()` 计算页数。
2. 对齐至少是 `PAGE_SIZE`3. 调用 `BuddyAllocator::alloc_pages()`
大对象不会进入 slab,也不会设置 `PageFlags::Slab`。

## 7. dealloc 路径

### 7.1 大对象释放

大对象释放和分配对称:

1. 根据 `layout.size()` 推导页数。
2. 直接进入 `BuddyAllocator::dealloc_pages()`
### 7.2 小对象释放:本地路径

如果当前 CPU 就是该 slab 的 owner:

1. 通过对象地址反推出 slab base。
2. 拿 owner CPU 对应的 slab 锁。
3. 调用 `slab.dealloc(ptr, layout)`4. 如果结果是 `Done`,结束。
5. 如果结果是 `FreeSlab { base, pages }`,释放 slab 锁后把整页还给 buddy。

为什么空 slab 不总是立刻还给 buddy:

- `SlabCache` 会保留一个 empty slab 作为热缓存。
- 只有当已有一个 cached empty slab 时,新的空 slab 才会还给 buddy。

### 7.3 小对象释放:远程路径

如果当前 CPU 不是 owner CPU,不会直接拿对方的 slab 锁。

而是走 lock-free remote free:

```mermaid
sequenceDiagram
    participant CPU1 as current CPU
    participant H as SlabPageHeader
    participant CPU0 as owner CPU
    participant S as owner SlabCache

    CPU1->>H: remote_free(obj_addr)
    Note right of H: CAS 推入 remote_free_head\n并增加 remote_free_count
    CPU1-->>CPU1: 返回,不加锁

    CPU0->>S: 下次 alloc/dealloc 时持锁进入
    S->>H: drain_remote_frees()
    Note right of H: 将 remote 栈中的对象\n重新记回 local bitmap
    S-->>CPU0: 对象重新可分配
```

这条路径的核心特点:

- 释放方不需要知道 owner CPU 的锁状态。
- 释放方不抢远端锁。
- owner CPU 在后续本地操作时,顺手把 remote free 合并回 bitmap。

这也是当前实现中“跨 CPU free 无锁,但重新利用对象仍由 owner CPU 控制”的关键设计。

## 8. 多线程与并发模型

### 8.1 并发边界

当前实现中真正共享的状态主要有两类:

- `BuddyAllocator`
  整体包在一个 `SpinMutex` 里,页级操作串行化。
- 每 CPU 一个 `SlabAllocator`
  每个都各自包在一个 `SpinMutex` 里。

因此并发模型可以概括为:

- 小对象本地路径:只竞争本 CPU 的 slab 锁。
- 小对象远程 free:不走锁,直接原子 CAS。
- 缺页或空 slab 回收:会短暂进入全局 buddy 锁。

### 8.2 为什么是 per-CPU slab

如果所有小对象都走单个全局 slab 锁,会有两个问题:

- 多核下锁竞争重。
- 小对象热点路径和页级路径容易互相干扰。

per-CPU slab 的好处是:

- 本地分配/释放命中时只碰本 CPU 锁。
- 跨 CPU free 通过 remote list 延后处理,不把释放方拖进远端临界区。

### 8.3 远程释放的正确性依赖

远程释放正确性依赖几个事实:

- slab 页头里记录了 `owner_cpu`- 远程释放只把对象地址压到无锁链表里。
- owner CPU 持锁 drain 时,再把对象重新放回本地 bitmap。
- remote 栈中的 next 指针写在对象自身内存开头,这要求被释放对象已经不再被用户使用。

### 8.4 锁顺序

当前实现中建议理解为以下顺序:

- 常规 slab 本地路径:只拿 slab 锁。
- 常规 buddy 页路径:只拿 buddy 锁。
- slab 缺页:先释放 slab 锁,再拿 buddy 锁,再重新拿 slab 锁。
- slab 回收空页:先释放 slab 锁,再拿 buddy 锁。

这样可以避免出现“持有 slab 锁后等待 buddy,同时另一路持有 buddy 锁又等待 slab”的循环。

## 9. 关键实现细节

### 9.1 `PageFlags`

页状态分三种:

- `Free`
- `Allocated`
- `Slab`

含义是:

- `Free`:在 buddy free list 中。
- `Allocated`:普通页分配返回的块头页。
- `Slab`:该块当前作为 slab 页使用。

### 9.2 buddy 只在块头记录 order

`PageMeta.order` 只有块头页有意义。

因此:

- 分配时只标记头页的 `order`- 释放时调用方必须传回原始返回地址。

### 9.3 `dealloc_pages(count)` 为什么不完全信任 `count`

因为分配时请求可能被扩大:

- `count` 会按 buddy order 向上取整。
- `align` 也可能把块提升到更高阶。

所以释放时真正信任的是 `PageMeta.order`,`count` 只用于做 debug 级别的合理性检查。

### 9.4 empty slab 缓存策略

每个 `SlabCache` 最多保留一个 empty slab。

这是一个很重要的折中:

- 优点:后续同 size class 再分配时更快,减少 buddy 往返。
- 代价:空闲页不会总是立刻全部回收到 buddy。

所以测试或观测时不能简单假设:

- “所有对象释放后,buddy free pages 一定精确回到初始值”。

更准确的理解应是:

- 除去每 CPU、每 size class 允许缓存的 empty slab 后,应当没有额外页泄漏。

## 10. realloc 行为

`GlobalAllocator` 通过 `GlobalAlloc` 实现了 `realloc`:

1. 构造新的 `Layout`
2. 新分配一块内存
3. 拷贝 `min(old_size, new_size)` 字节
4. 释放旧块

它不是原地扩容,也没有针对 slab/buddy 做特殊优化。

## 11. 当前实现的优点与限制

### 11.1 优点

- 结构清晰,页级与对象级职责分离。
- 小对象本地路径开销低。
- 跨 CPU free 不抢远端锁。
- 初始化不依赖额外堆分配。
- 支持低地址页分配。

### 11.2 限制

- buddy 后端仍然是全局单锁。
- `remote_free` 的对象复用必须等 owner CPU 后续 drain。
- empty slab 缓存会牺牲一部分“空闲页立刻回收”的极致性。
- `realloc` 为通用 copy 语义,不做原地优化。

## 12. 阅读源码建议

如果想快速建立整体理解,建议按下面顺序读:

1. `src/lib.rs`
   先看公开模块和 `OsImpl`2. `src/global.rs`
   先理解门面层如何在 buddy/slab 间路由。
3. `src/buddy/mod.rs`
   看页级分配、拆分和合并。
4. `src/slab/mod.rs`
   看 slab 与上层的接口契约。
5. `src/slab/cache.rs`
   `partial/full/empty` 三链切换。
6. `src/slab/page.rs`
   看 bitmap、remote free 栈与 owner CPU drain。

## 13. 一句话总结

这个分配器的核心思想可以概括成一句话:

> 用 buddy 统一管理页,用 per-CPU slab 加速小对象,把跨 CPU free 变成“无锁登记、延迟回收”,从而在实现复杂度、局部性和并发开销之间取得平衡。