Module utils

Module utils 

Source

Structs§

TextMetadata

Functions§

chunk_text
Découpe le texte en chunks de taille maximale avec chevauchement
clean_text
Nettoie le texte en supprimant les caractères indésirables
count_words
Compte le nombre de mots dans un texte
detect_language
Détecte la langue du texte (implémentation basique)
estimate_tokens
Estime le nombre de tokens (approximation: 1 token ≈ 0.75 mots)
extract_text_metadata
Extrait les métadonnées basiques d’un texte
normalize_line_breaks
Normalise les retours à la ligne
remove_empty_lines
Supprime les lignes vides consécutives