Skip to main content

Module html_extract

Module html_extract 

Source
Expand description

HTML 内容智能提取工具模块

提供从 HTML 中提取可读正文内容的公共函数, 被 web_fetchbrowser 模块共同使用。

Functions§

extract_readable_content
智能提取网页正文区域的 HTML
extract_text_from_html
从原始 HTML 中提取可读正文并转为纯文本
html_to_text
将 HTML 转换为干净的纯文本