LLM-Aided OCR

LLM-Aided OCR

llm_aided_ocr是一个高级系统,旨在显著提高光学字符识别(OCR)输出的质量。通过利用尖端的自然语言处理技术和大型语言模型(LLMs),该项目将原始OCR文本转化为高度准确、格式良好、易读的文档。

需求人群:

"目标受众为需要将扫描文档转换为可编辑和准确文本格式的个人或企业,如文档数字化、历史文档恢复、学术研究等。"

使用场景示例:

将历史信件的扫描件转换为可编辑的文本格式。

对学术文章的扫描副本进行OCR处理,并纠正原始输出中的错误。

将公司存档的合同文档数字化,以便于搜索和引用。

产品特色:

PDF到图像转换

使用Tesseract进行OCR

使用LLMs进行高级错误校正(本地或基于API)

智能文本分块以高效处理

Markdown格式选项

可选的页眉和页码抑制

最终输出的质量评估

支持本地LLMs和基于云的API提供商(OpenAI, Anthropic)

异步处理以提高性能

详细的日志记录用于过程跟踪和调试

GPU加速本地LLM推理

使用教程:

1. 将PDF文件放置在项目目录中。

2. 更新main()函数中的input_pdf_file_path变量为您的PDF文件名。

3. 运行脚本:python llm_aided_ocr.py。

4. 脚本将生成多个输出文件,包括最终处理后的文本。

5. 检查生成的{base_name}__raw_ocr_output.txt文件,这是Tesseract的原始OCR输出。

6. 查看{base_name}_llm_corrected.md文件,这是经过LLM校正和格式化的最终文本。

7. 根据需要,查看日志文件以了解处理过程和质量评估。

浏览量:48

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
网站流量情况

最新流量情况

月访问量

5.16m

平均访问时长

00:06:42

每次访问页数

5.81

跳出率

37.20%

流量来源

直接访问

52.27%

自然搜索

32.92%

邮件

0.05%

外链引荐

12.52%

社交媒体

2.15%

展示广告

0

截止目前所有流量趋势图

地理流量分布情况

中国

11.99%

德国

3.63%

印度

9.20%

俄罗斯

5.25%

美国

19.02%

类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图