简介:

一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

功能:

去除PDF中的页眉、页脚、脚注、页码等,确保语义连贯性。

输出文本顺序适合人类阅读,适用于单栏、多栏和复杂布局。

保持原始文档结构,包括标题、段落、列表等。

提取图像、图像描述、表格、表格标题和脚注。

自动识别并转换文档中的公式为LaTeX格式。

自动识别并转换文档中的表格为HTML格式。

自动检测扫描PDF和乱码PDF并启用OCR功能。

OCR支持84种语言的检测和识别。

支持多种输出格式,如多模态和NLP Markdown、按阅读顺序排序的JSON等。

支持CPU和GPU环境。

兼容Windows、Linux和Mac平台。

需求人群:

"目标受众为需要处理大量PDF文档的用户,如科研人员、数据分析师、文档编辑等。MinerU适合他们因为它可以快速准确地从PDF中提取信息,支持多种语言和格式,提高工作效率。"

浏览量:8

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图