pdf-extract-api

pdf-extract-api

pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Markdown的高精度转换,包括表格数据、数字或数学公式,并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外,该API还支持LLM改进OCR结果,去除PDF中的个人身份信息(PII),以及分布式队列处理和缓存。

需求人群:

"目标受众包括需要高精度文档转换服务的开发者和企业,特别是那些对数据隐私和安全性有高要求的用户。该API适合需要将大量文档转换为结构化数据的场合,如法律文件、医疗报告和财务发票等。"

使用场景示例:

将MRI报告转换为Markdown和JSON

将发票转换为JSON并去除PII

使用不同的OCR策略进行PDF到Markdown的转换

产品特色:

高精度PDF到Markdown和JSON的转换

使用PyTorch基于Marker的OCR和Ollama模型进行本地处理

支持LLM改进OCR文本结果

去除PDF中的个人身份信息(PII)

分布式队列处理使用Celery

使用Redis缓存OCR结果

命令行工具用于发送任务和处理结果

使用教程:

1. 克隆仓库到本地

2. 设置环境变量并创建.env文件

3. 使用Docker Compose构建并运行Docker容器

4. 使用CLI工具上传文件进行OCR转换

5. 获取OCR结果

6. 清除OCR缓存

浏览量:23

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

4.95m

平均访问时长

00:06:29

每次访问页数

5.68

跳出率

37.69%

流量来源

直接访问

51.66%

自然搜索

33.21%

邮件

0.04%

外链引荐

12.84%

社交媒体

2.17%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

12.79%

德国

3.71%

印度

9.03%

俄罗斯

4.40%

美国

18.49%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图