zpdf_parser/
xref.rs

1use std::collections::HashMap;
2
3use zpdf_core::{Error, ObjectId, ParseLimits, PdfDict, PdfObject, Result};
4
5use crate::lexer::Lexer;
6
7#[derive(Debug, Clone)]
8pub enum XrefEntry {
9    InUse {
10        offset: u64,
11        gen: u16,
12    },
13    Free {
14        next: u32,
15        gen: u16,
16    },
17    Compressed {
18        stream_obj: u32,
19        index_in_stream: u32,
20    },
21}
22
23#[derive(Debug, Clone, Default)]
24pub struct XrefTable {
25    entries: HashMap<ObjectId, XrefEntry>,
26}
27
28impl XrefTable {
29    pub fn new() -> Self {
30        Self::default()
31    }
32
33    pub fn get(&self, id: ObjectId) -> Option<&XrefEntry> {
34        self.entries.get(&id)
35    }
36
37    pub fn insert(&mut self, id: ObjectId, entry: XrefEntry) {
38        self.entries.entry(id).or_insert(entry);
39    }
40
41    /// Insert overwriting any existing entry. Used by tail-scan recovery, where a
42    /// later byte offset for the same ObjectId supersedes an earlier one
43    /// (incremental-update semantics). The regular `insert` is first-wins because
44    /// the /Prev chain walks newest-to-oldest.
45    pub fn insert_overwrite(&mut self, id: ObjectId, entry: XrefEntry) {
46        self.entries.insert(id, entry);
47    }
48
49    pub fn len(&self) -> usize {
50        self.entries.len()
51    }
52
53    pub fn is_empty(&self) -> bool {
54        self.entries.is_empty()
55    }
56
57    pub fn object_ids(&self) -> impl Iterator<Item = ObjectId> + '_ {
58        self.entries.keys().copied()
59    }
60}
61
62pub fn parse_xref_and_trailer(data: &[u8], limits: &ParseLimits) -> Result<(XrefTable, PdfDict)> {
63    let startxref_offset = find_startxref(data)?;
64    let mut table = XrefTable::new();
65
66    let xref_offset = startxref_offset;
67    let (trailer, next_prev) = parse_xref_section(data, xref_offset, &mut table, limits)?;
68
69    // Follow /Prev chain for incremental updates. Track visited offsets so a
70    // malformed /Prev cycle (a section pointing at itself, or two pointing at
71    // each other) terminates instead of looping forever.
72    let mut visited = std::collections::HashSet::new();
73    visited.insert(xref_offset);
74    // Hybrid-reference file: parse the trailer's /XRefStm BEFORE following
75    // /Prev, so first-wins insertion yields main table > XRefStm > /Prev.
76    parse_hybrid_xrefstm(data, &trailer, &mut table, limits, &mut visited);
77    let mut prev = next_prev;
78    while let Some(prev_offset) = prev {
79        if !visited.insert(prev_offset as usize) {
80            break;
81        }
82        let (section_trailer, next) =
83            parse_xref_section(data, prev_offset as usize, &mut table, limits)?;
84        parse_hybrid_xrefstm(data, &section_trailer, &mut table, limits, &mut visited);
85        prev = next;
86    }
87
88    Ok((table, trailer))
89}
90
91/// Hybrid-reference files (ISO 32000-1, 7.5.8.4): a traditional trailer may
92/// carry `/XRefStm`, the byte offset of a cross-reference *stream* holding the
93/// entries (typically the compressed-object ones) that pre-1.5 readers ignore.
94/// The stream is parsed after the section that referenced it but before that
95/// section's /Prev; with first-wins insertion this gives the spec precedence
96/// main-table > XRefStm > /Prev chain. Never fatal: a broken /XRefStm only
97/// loses the hybrid entries.
98fn parse_hybrid_xrefstm(
99    data: &[u8],
100    trailer: &PdfDict,
101    table: &mut XrefTable,
102    limits: &ParseLimits,
103    visited: &mut std::collections::HashSet<usize>,
104) {
105    let Some(PdfObject::Integer(off)) = trailer.get("XRefStm") else {
106        return;
107    };
108    let Ok(off) = usize::try_from(*off) else {
109        tracing::warn!("/XRefStm offset {off} is negative; ignoring");
110        return;
111    };
112    // Guard against /XRefStm cycles via the same visited set as /Prev.
113    if !visited.insert(off) {
114        return;
115    }
116    if let Err(e) = parse_xref_stream(data, off, table, limits) {
117        tracing::warn!("failed to parse /XRefStm at offset {off}: {e}");
118    }
119}
120
121fn parse_xref_section(
122    data: &[u8],
123    offset: usize,
124    table: &mut XrefTable,
125    limits: &ParseLimits,
126) -> Result<(PdfDict, Option<u64>)> {
127    // Guard against a garbage `startxref`/`/Prev` offset pointing past EOF.
128    // Returning Err (rather than panicking on the slice below) lets the caller
129    // fall back to tail-scan recovery.
130    if offset >= data.len() {
131        return Err(Error::InvalidXref(offset as u64));
132    }
133    if data[offset..].starts_with(b"xref") {
134        parse_traditional_xref(data, offset, table, limits)
135    } else {
136        parse_xref_stream(data, offset, table, limits)
137    }
138}
139
140fn parse_xref_stream(
141    data: &[u8],
142    offset: usize,
143    table: &mut XrefTable,
144    limits: &ParseLimits,
145) -> Result<(PdfDict, Option<u64>)> {
146    use crate::filters;
147    use crate::object_parser::ObjectParser;
148
149    let parser = ObjectParser::new(data, limits);
150    let obj = parser.parse_indirect_at(offset)?;
151    let stream = match obj {
152        PdfObject::Stream(s) => s,
153        _ => return Err(Error::InvalidXref(offset as u64)),
154    };
155
156    let dict = &stream.dict;
157    if dict.get_name("Type").unwrap_or("") != "XRef" {
158        return Err(Error::InvalidXref(offset as u64));
159    }
160
161    let size = dict.get_i64("Size")? as u32;
162
163    // /W [w1 w2 w3] — field widths. Attacker-controlled: a negative width cast
164    // to usize would explode entry_size, and widths above 8 cannot fit the u64
165    // accumulator in read_field; reject both with a clean error.
166    let w_arr = dict.get_array("W")?;
167    if w_arr.len() != 3 {
168        return Err(Error::InvalidXref(offset as u64));
169    }
170    let field_width = |obj: &PdfObject| -> Result<usize> {
171        let w = obj.as_i64()?;
172        if !(0..=8).contains(&w) {
173            return Err(Error::InvalidXref(offset as u64));
174        }
175        Ok(w as usize)
176    };
177    let w1 = field_width(&w_arr[0])?;
178    let w2 = field_width(&w_arr[1])?;
179    let w3 = field_width(&w_arr[2])?;
180    let entry_size = w1 + w2 + w3;
181    if entry_size == 0 {
182        return Err(Error::InvalidXref(offset as u64));
183    }
184
185    // Decode stream data
186    let decoded = filters::decode_stream(&stream.data, dict)?;
187
188    // /Index [start count start count ...] — subsection ranges (optional)
189    let index_ranges: Vec<(u32, u32)> = if let Ok(idx_arr) = dict.get_array("Index") {
190        idx_arr
191            .chunks(2)
192            .filter_map(|pair| {
193                if pair.len() == 2 {
194                    Some((pair[0].as_i64().ok()? as u32, pair[1].as_i64().ok()? as u32))
195                } else {
196                    None
197                }
198            })
199            .collect()
200    } else {
201        vec![(0, size)]
202    };
203
204    let mut pos = 0usize;
205    for &(start, count) in &index_ranges {
206        for i in 0..count {
207            if pos + entry_size > decoded.len() {
208                break;
209            }
210            let obj_num = start + i;
211
212            let field1 = read_field(&decoded[pos..], w1);
213            let field2 = read_field(&decoded[pos + w1..], w2);
214            let field3 = read_field(&decoded[pos + w1 + w2..], w3);
215            pos += entry_size;
216
217            let entry_type = if w1 == 0 { 1 } else { field1 as u8 };
218            let id = ObjectId(obj_num, field3 as u16);
219
220            match entry_type {
221                0 => {
222                    table.insert(
223                        id,
224                        XrefEntry::Free {
225                            next: field2 as u32,
226                            gen: field3 as u16,
227                        },
228                    );
229                }
230                1 => {
231                    table.insert(
232                        id,
233                        XrefEntry::InUse {
234                            offset: field2,
235                            gen: field3 as u16,
236                        },
237                    );
238                }
239                2 => {
240                    table.insert(
241                        ObjectId(obj_num, 0),
242                        XrefEntry::Compressed {
243                            stream_obj: field2 as u32,
244                            index_in_stream: field3 as u32,
245                        },
246                    );
247                }
248                _ => {}
249            }
250        }
251    }
252
253    // The xref stream dict itself serves as the trailer
254    let trailer = dict.clone();
255    let prev = trailer.get("Prev").and_then(|obj| match obj {
256        PdfObject::Integer(n) => Some(*n as u64),
257        _ => None,
258    });
259
260    Ok((trailer, prev))
261}
262
263fn read_field(data: &[u8], width: usize) -> u64 {
264    let mut val = 0u64;
265    for &byte in &data[..width] {
266        val = (val << 8) | byte as u64;
267    }
268    val
269}
270
271fn parse_traditional_xref(
272    data: &[u8],
273    offset: usize,
274    table: &mut XrefTable,
275    limits: &ParseLimits,
276) -> Result<(PdfDict, Option<u64>)> {
277    let mut pos = offset + 4; // skip "xref"
278    skip_eol(data, &mut pos);
279
280    // Parse subsections
281    loop {
282        skip_whitespace(data, &mut pos);
283
284        // Guard against a malformed/truncated table that ran the cursor off the
285        // end (e.g. a subsection /count larger than the entries that fit).
286        // Returning Err routes to tail-scan recovery instead of panicking.
287        if pos >= data.len() {
288            return Err(Error::InvalidXref(pos as u64));
289        }
290
291        if data[pos..].starts_with(b"trailer") {
292            pos += 7;
293            break;
294        }
295
296        // Read: <first_obj_num> <count>
297        let (first_obj, count) = parse_subsection_header(data, &mut pos)?;
298
299        for i in 0..count {
300            skip_whitespace(data, &mut pos);
301            // An entry is nominally 20 bytes ("nnnnnnnnnn ggggg n \r\n"), but
302            // real files contain 19-byte variants (lone \n or \r terminator).
303            // Parse by tokens, not a fixed stride, so short entries cannot
304            // desync the rest of the table. A truncated/corrupt entry Errs out
305            // to tail-scan recovery rather than under/overflowing.
306            let (entry_offset, gen, in_use) = parse_xref_entry_at(data, &mut pos)?;
307            let id = ObjectId(first_obj + i, gen);
308
309            if in_use {
310                table.insert(
311                    id,
312                    XrefEntry::InUse {
313                        offset: entry_offset,
314                        gen,
315                    },
316                );
317            } else {
318                table.insert(
319                    id,
320                    XrefEntry::Free {
321                        next: entry_offset as u32,
322                        gen,
323                    },
324                );
325            }
326        }
327    }
328
329    // Parse trailer dictionary
330    let mut lex = Lexer::new(data, pos, limits);
331    let trailer_obj = lex.next_token()?;
332    let trailer = match trailer_obj {
333        PdfObject::Dict(d) => d,
334        _ => return Err(Error::InvalidXref(pos as u64)),
335    };
336
337    let prev = trailer.get("Prev").and_then(|obj| match obj {
338        PdfObject::Integer(n) => Some(*n as u64),
339        _ => None,
340    });
341
342    Ok((trailer, prev))
343}
344
345fn find_startxref(data: &[u8]) -> Result<usize> {
346    let search_size = 1024.min(data.len());
347    let tail = &data[data.len() - search_size..];
348
349    let marker = b"startxref";
350    let marker_pos = tail
351        .windows(marker.len())
352        .rposition(|w| w == marker)
353        .ok_or(Error::InvalidXref(0))?;
354
355    let after_marker = marker_pos + marker.len();
356    let num_start = tail[after_marker..]
357        .iter()
358        .position(|b| b.is_ascii_digit())
359        .ok_or(Error::InvalidXref(0))?;
360
361    let num_bytes = &tail[after_marker + num_start..];
362    let num_end = num_bytes
363        .iter()
364        .position(|b| !b.is_ascii_digit())
365        .unwrap_or(num_bytes.len());
366
367    let offset_str =
368        std::str::from_utf8(&num_bytes[..num_end]).map_err(|_| Error::InvalidXref(0))?;
369    let offset: usize = offset_str.parse().map_err(|_| Error::InvalidXref(0))?;
370
371    Ok(offset)
372}
373
374fn parse_subsection_header(data: &[u8], pos: &mut usize) -> Result<(u32, u32)> {
375    let start = *pos;
376    while *pos < data.len() && data[*pos].is_ascii_digit() {
377        *pos += 1;
378    }
379    let first: u32 = std::str::from_utf8(&data[start..*pos])
380        .map_err(|_| Error::InvalidXref(start as u64))?
381        .parse()
382        .map_err(|_| Error::InvalidXref(start as u64))?;
383
384    skip_whitespace(data, pos);
385
386    let count_start = *pos;
387    while *pos < data.len() && data[*pos].is_ascii_digit() {
388        *pos += 1;
389    }
390    let count: u32 = std::str::from_utf8(&data[count_start..*pos])
391        .map_err(|_| Error::InvalidXref(count_start as u64))?
392        .parse()
393        .map_err(|_| Error::InvalidXref(count_start as u64))?;
394
395    skip_eol(data, pos);
396    Ok((first, count))
397}
398
399/// Parse a single traditional xref entry ("nnnnnnnnnn ggggg n") at `*pos`,
400/// advancing the cursor just past the type letter. Field widths are not
401/// assumed: digit runs of any length and any amount of inter-field whitespace
402/// are accepted, which tolerates the 19-byte entries some writers emit.
403fn parse_xref_entry_at(data: &[u8], pos: &mut usize) -> Result<(u64, u16, bool)> {
404    let start = *pos as u64;
405    let offset = read_decimal(data, pos).ok_or(Error::InvalidXref(start))?;
406    skip_whitespace(data, pos);
407    let gen = read_decimal(data, pos)
408        .and_then(|g| u16::try_from(g).ok())
409        .ok_or(Error::InvalidXref(start))?;
410    skip_whitespace(data, pos);
411    let in_use = match data.get(*pos) {
412        Some(b'n') => true,
413        Some(b'f') => false,
414        _ => return Err(Error::InvalidXref(start)),
415    };
416    *pos += 1;
417    Ok((offset, gen, in_use))
418}
419
420/// Read a run of ASCII digits at `*pos` as a u64, advancing past it.
421/// `None` if there is no digit at `*pos` or the value overflows.
422fn read_decimal(data: &[u8], pos: &mut usize) -> Option<u64> {
423    let start = *pos;
424    while *pos < data.len() && data[*pos].is_ascii_digit() {
425        *pos += 1;
426    }
427    if *pos == start {
428        return None;
429    }
430    std::str::from_utf8(&data[start..*pos]).ok()?.parse().ok()
431}
432
433fn skip_whitespace(data: &[u8], pos: &mut usize) {
434    while *pos < data.len() && matches!(data[*pos], b' ' | b'\t' | b'\r' | b'\n') {
435        *pos += 1;
436    }
437}
438
439fn skip_eol(data: &[u8], pos: &mut usize) {
440    while *pos < data.len() && matches!(data[*pos], b' ' | b'\t' | b'\r' | b'\n') {
441        *pos += 1;
442    }
443}
444
445#[cfg(test)]
446mod tests {
447    use super::*;
448
449    #[test]
450    fn find_startxref_offset() {
451        let data = b"%PDF-1.4\n...lots of content...\nstartxref\n1234\n%%EOF";
452        let offset = find_startxref(data).unwrap();
453        assert_eq!(offset, 1234);
454    }
455
456    #[test]
457    fn parse_xref_entry_in_use() {
458        let mut pos = 0usize;
459        let (offset, gen, in_use) =
460            parse_xref_entry_at(b"0000000010 00000 n \r\n", &mut pos).unwrap();
461        assert_eq!(offset, 10);
462        assert_eq!(gen, 0);
463        assert!(in_use);
464        assert_eq!(pos, 18, "cursor stops just past the type letter");
465    }
466
467    #[test]
468    fn parse_xref_entry_free() {
469        let mut pos = 0usize;
470        let (offset, gen, in_use) =
471            parse_xref_entry_at(b"0000000000 65535 f \r\n", &mut pos).unwrap();
472        assert_eq!(offset, 0);
473        assert_eq!(gen, 65535);
474        assert!(!in_use);
475    }
476
477    #[test]
478    fn parse_xref_entry_truncated_errors() {
479        let mut pos = 0usize;
480        assert!(parse_xref_entry_at(b"0000000010 000", &mut pos).is_err());
481    }
482
483    #[test]
484    fn traditional_xref_with_19_byte_entries() {
485        // Entries terminated by a lone \n (19 bytes) must not desync the table.
486        let mut d = Vec::new();
487        d.extend_from_slice(b"%PDF-1.4\n");
488        let off1 = d.len();
489        d.extend_from_slice(b"1 0 obj\n<< /Type /Catalog /Pages 2 0 R >>\nendobj\n");
490        let off2 = d.len();
491        d.extend_from_slice(b"2 0 obj\n<< /Type /Pages /Kids [] /Count 0 >>\nendobj\n");
492        let xref_off = d.len();
493        d.extend_from_slice(b"xref\n0 3\n");
494        d.extend_from_slice(b"0000000000 65535 f\n"); // 19 bytes
495        d.extend_from_slice(format!("{off1:010} 00000 n\n").as_bytes()); // 19 bytes
496        d.extend_from_slice(format!("{off2:010} 00000 n\n").as_bytes()); // 19 bytes
497        d.extend_from_slice(
498            format!("trailer\n<< /Size 3 /Root 1 0 R >>\nstartxref\n{xref_off}\n%%EOF\n")
499                .as_bytes(),
500        );
501
502        let (table, trailer) = parse_xref_and_trailer(&d, &ParseLimits::default()).unwrap();
503        assert_eq!(trailer.get_ref("Root").unwrap(), ObjectId(1, 0));
504        match table.get(ObjectId(1, 0)).unwrap() {
505            XrefEntry::InUse { offset, .. } => assert_eq!(*offset as usize, off1),
506            other => panic!("expected InUse, got {other:?}"),
507        }
508        match table.get(ObjectId(2, 0)).unwrap() {
509            XrefEntry::InUse { offset, .. } => assert_eq!(*offset as usize, off2),
510            other => panic!("expected InUse, got {other:?}"),
511        }
512    }
513
514    /// Build a minimal xref-stream object at offset 0 with the given /W array
515    /// and raw (unfiltered) entry data.
516    fn xref_stream_bytes(w: &str, size: u32, index: &str, body: &[u8]) -> Vec<u8> {
517        let mut d = format!(
518            "9 0 obj\n<< /Type /XRef /Size {size} /W {w} {index} /Length {} >>\nstream\n",
519            body.len()
520        )
521        .into_bytes();
522        d.extend_from_slice(body);
523        d.extend_from_slice(b"\nendstream\nendobj\n");
524        d
525    }
526
527    #[test]
528    fn xref_stream_rejects_negative_w_width() {
529        let d = xref_stream_bytes("[1 -2 2]", 1, "", &[]);
530        let mut table = XrefTable::new();
531        assert!(parse_xref_stream(&d, 0, &mut table, &ParseLimits::default()).is_err());
532    }
533
534    #[test]
535    fn xref_stream_rejects_oversized_w_width() {
536        let d = xref_stream_bytes("[9 4 2]", 1, "", &[]);
537        let mut table = XrefTable::new();
538        assert!(parse_xref_stream(&d, 0, &mut table, &ParseLimits::default()).is_err());
539    }
540
541    #[test]
542    fn xref_stream_rejects_zero_entry_size() {
543        let d = xref_stream_bytes("[0 0 0]", 1, "", &[]);
544        let mut table = XrefTable::new();
545        assert!(parse_xref_stream(&d, 0, &mut table, &ParseLimits::default()).is_err());
546    }
547
548    #[test]
549    fn hybrid_xrefstm_is_parsed_with_correct_precedence() {
550        // Hybrid-reference layout: the traditional table covers objects 0,1,4;
551        // the trailer's /XRefStm points at an xref stream that covers 4 and 5.
552        // Object 5 must come from the stream; object 4 must keep the
553        // main-table offset (main table wins over /XRefStm).
554        let mut d = Vec::new();
555        d.extend_from_slice(b"%PDF-1.4\n");
556        let off1 = d.len();
557        d.extend_from_slice(b"1 0 obj\n<< /Type /Catalog /Pages 2 0 R >>\nendobj\n");
558        let off4_table = d.len();
559        d.extend_from_slice(b"4 0 obj\n<< /Marker /FromTable >>\nendobj\n");
560        let off4_stm = d.len();
561        d.extend_from_slice(b"4 0 obj\n<< /Marker /FromStm >>\nendobj\n");
562        let off5 = d.len();
563        d.extend_from_slice(b"5 0 obj\n<< /Marker /StmOnly >>\nendobj\n");
564
565        // Xref stream (object 6): /W [1 4 2], /Index [4 2], raw (no filter).
566        let mut body = Vec::new();
567        for (off, gen) in [(off4_stm as u32, 0u16), (off5 as u32, 0)] {
568            body.push(1u8); // type 1: in use
569            body.extend_from_slice(&off.to_be_bytes());
570            body.extend_from_slice(&gen.to_be_bytes());
571        }
572        let off6 = d.len();
573        d.extend_from_slice(
574            format!(
575                "6 0 obj\n<< /Type /XRef /Size 7 /W [1 4 2] /Index [4 2] /Length {} >>\nstream\n",
576                body.len()
577            )
578            .as_bytes(),
579        );
580        d.extend_from_slice(&body);
581        d.extend_from_slice(b"\nendstream\nendobj\n");
582
583        let xref_off = d.len();
584        d.extend_from_slice(b"xref\n0 2\n0000000000 65535 f \n");
585        d.extend_from_slice(format!("{off1:010} 00000 n \n").as_bytes());
586        d.extend_from_slice(b"4 1\n");
587        d.extend_from_slice(format!("{off4_table:010} 00000 n \n").as_bytes());
588        d.extend_from_slice(
589            format!(
590                "trailer\n<< /Size 7 /Root 1 0 R /XRefStm {off6} >>\nstartxref\n{xref_off}\n%%EOF\n"
591            )
592            .as_bytes(),
593        );
594
595        let (table, trailer) = parse_xref_and_trailer(&d, &ParseLimits::default()).unwrap();
596        assert_eq!(trailer.get_ref("Root").unwrap(), ObjectId(1, 0));
597        // Object 5 exists only via the /XRefStm.
598        match table.get(ObjectId(5, 0)).unwrap() {
599            XrefEntry::InUse { offset, .. } => assert_eq!(*offset as usize, off5),
600            other => panic!("expected InUse from XRefStm, got {other:?}"),
601        }
602        // Object 4: the traditional table's offset wins over the stream's.
603        match table.get(ObjectId(4, 0)).unwrap() {
604            XrefEntry::InUse { offset, .. } => assert_eq!(*offset as usize, off4_table),
605            other => panic!("expected InUse, got {other:?}"),
606        }
607
608        // End-to-end: the document opens and the stream-only object resolves.
609        let file = crate::PdfFile::parse(d).unwrap();
610        let o5 = file.resolve(ObjectId(5, 0)).unwrap();
611        assert_eq!(o5.as_dict().unwrap().get_name("Marker").unwrap(), "StmOnly");
612        let o4 = file.resolve(ObjectId(4, 0)).unwrap();
613        assert_eq!(
614            o4.as_dict().unwrap().get_name("Marker").unwrap(),
615            "FromTable"
616        );
617    }
618}
zpdf_parser/xref.rs

zpdf_parser/
xref.rs