简介:

olmOCR是一个用于将PDF线性化以用于LLM数据集训练的工具包。

功能:

提供高效的自然文本解析策略,支持ChatGPT 4o等模型。

支持多版本比较工具,用于评估不同处理流程的效果。

具备基本的语言过滤功能,可移除SEO垃圾信息。

支持模型微调,适配Qwen2-VL和Molmo-O等模型。

能够处理数百万PDF文档,并通过Sglang进行高效推理。

需求人群:

"olmOCR主要面向需要处理大量PDF文档的研究人员和开发者,特别是在自然语言处理和机器学习领域。它适用于需要将PDF文档转换为适合LLM训练的数据集的用户,以及需要高效处理和解析PDF文本的团队。"

浏览量:67

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2025     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图