需求人群:
"目标受众为需要将扫描文档转换为可编辑和准确文本格式的个人或企业,如文档数字化、历史文档恢复、学术研究等。"
使用场景示例:
将历史信件的扫描件转换为可编辑的文本格式。
对学术文章的扫描副本进行OCR处理,并纠正原始输出中的错误。
将公司存档的合同文档数字化,以便于搜索和引用。
产品特色:
PDF到图像转换
使用Tesseract进行OCR
使用LLMs进行高级错误校正(本地或基于API)
智能文本分块以高效处理
Markdown格式选项
可选的页眉和页码抑制
最终输出的质量评估
支持本地LLMs和基于云的API提供商(OpenAI, Anthropic)
异步处理以提高性能
详细的日志记录用于过程跟踪和调试
GPU加速本地LLM推理
使用教程:
1. 将PDF文件放置在项目目录中。
2. 更新main()函数中的input_pdf_file_path变量为您的PDF文件名。
3. 运行脚本:python llm_aided_ocr.py。
4. 脚本将生成多个输出文件,包括最终处理后的文本。
5. 检查生成的{base_name}__raw_ocr_output.txt文件,这是Tesseract的原始OCR输出。
6. 查看{base_name}_llm_corrected.md文件,这是经过LLM校正和格式化的最终文本。
7. 根据需要,查看日志文件以了解处理过程和质量评估。
浏览量:34
最新流量情况
月访问量
5.04m
平均访问时长
00:06:44
每次访问页数
5.72
跳出率
37.31%
流量来源
直接访问
52.46%
自然搜索
32.55%
邮件
0.05%
外链引荐
12.51%
社交媒体
2.27%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.03%
德国
3.56%
印度
9.44%
俄罗斯
5.59%
美国
18.14%
利用大型语言模型增强扫描PDF的OCR输出。
llm_aided_ocr是一个高级系统,旨在显著提高光学字符识别(OCR)输出的质量。通过利用尖端的自然语言处理技术和大型语言模型(LLMs),该项目将原始OCR文本转化为高度准确、格式良好、易读的文档。
先进的文档智能AI模型,开源易用。
Datalab 的 AI For Document Intelligence 是一系列用于文档智能处理的AI模型,包括OCR、布局分析、PDF转Markdown等。这些模型代表了文档处理技术的最新发展,易于使用,并且是开源的,可以广泛应用于提高文档处理的效率和准确性。
高效CPU本地离线LaTeX识别工具
MixTeX是一个创新的多模态LaTeX识别小程序,由团队独立开发,能够在本地离线环境中执行高效的基于CPU的推理。无论是LaTeX公式、表格还是混合文本,MixTeX都能轻松识别,支持中英文处理。得益于强大的技术支持和优化设计,MixTeX无需GPU资源即可高效运行,适合任何Windows电脑,极大地方便了用户体验。
一站式数据处理系统,为大型语言模型提供高质量数据。
Data-Juicer 是一个一站式的多模态数据处理系统,旨在为大型语言模型(LLMs)提供更高质量、更丰富、更易消化的数据。它提供了一个系统化和可复用的数据处理库,支持数据与模型的协同开发,通过沙盒实验室实现快速迭代,并提供基于数据和模型的反馈循环、可视化和多维度自动评估等功能,帮助用户更好地理解和改进他们的数据和模型。Data-Juicer 正在积极更新和维护,定期增强和添加更多功能、数据配方和数据集。
高性能多模态语言模型,适用于图像和视频理解。
MiniCPM-V 2.6是一个基于8亿参数的多模态大型语言模型,它在单图像理解、多图像理解和视频理解等多个领域展现出领先性能。该模型在OpenCompass等多个流行基准测试中取得了平均65.2分的高分,超越了广泛使用的专有模型。它还具备强大的OCR能力,支持多语言,并在效率上表现出色,能够在iPad等终端设备上实现实时视频理解。
由实践者主导的LLMs公开课
Mastering LLMs 是一个由25多位行业资深人士主讲的免费课程,涵盖了评估、检索增强生成(RAG)、微调等主题。课程内容由信息检索、机器学习、推荐系统、MLOps和数据科学等领域的专家提供,旨在将这些领域的先前技术应用于LLMs,为用户提供有意义的优势。课程面向需要指导如何改进AI产品的技术IC(包括工程师和数据科学家)。
一种简单直观的PDF OCR工具,使用gpt-4o-mini进行文档转换。
Zerox OCR是一个基于gpt-4o-mini的PDF文档转换工具,它通过将PDF文件转换为图像,然后利用GPT模型将图像内容转换为Markdown格式,从而实现对文档的高效OCR处理。该工具在价格上具有竞争力,并且能够提供比现有产品更有意义的结果。
轻量级、快速、无广告的文档扫描应用
ScanIt是一款专为iPhone和iPad设计的文档扫描应用,以其轻量级、快速、无广告的特点,为用户提供了一种简单高效的文档数字化解决方案。它拥有智能文档识别、曲面调整和文本提取(OCR)等专业功能,支持多种格式导出,并能安全加密文档,满足不同用户对扫描效率和安全性的需求。
快速、多语言支持的OCR工具包
RapidOCR是一个基于ONNXRuntime、OpenVINO和PaddlePaddle的OCR多语言工具包。它将PaddleOCR模型转换为ONNX格式,支持Python/C++/Java/C#等多平台部署,具有快速、轻量级、智能的特点,并解决了PaddleOCR内存泄露的问题。
快速转换和翻译扫描文档
DocuTranslate 是一款专注于文档转换和翻译的在线服务。它利用先进的光学字符识别(OCR)技术和翻译技术,能够快速将扫描的文档转换为Word格式,并提供准确的翻译。用户可以通过上传文档、选择目标语言并确认使用信用点数,几秒钟内即可收到翻译后的文档,方便进一步编辑。该服务支持26种语言,适用于翻译人员和需要高效文档处理的专业人士。
轻量级OCR模型,推理速度快
OnnxOCR是基于PaddleOCR重构的轻量级OCR模型,它脱离了PaddlePaddle深度学习训练框架,实现了快速的推理速度。该模型支持超过80种语言的推理,并在转换为ONNX模型后,推理速度比使用PaddlePaddle框架快5倍。OnnxOCR独立于深度学习训练框架,可以直接部署,适用于计算能力有限但需要保持准确性的场景,并且可以在ARM和x86架构的计算机上部署。
高质量PDF内容提取的综合工具包
PDF-Extract-Kit是一个专门用于提取PDF文件中高质量内容的工具包。它通过多个组件实现对PDF文档的深度解析,包括版面检测、公式检测、公式识别和光学字符识别(OCR)。该工具包使用先进的模型如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,以适应各种类型的PDF文档,并在版面和公式检测方面具有高精度。它还特别针对扫描模糊或带有水印的文档进行了优化,以确保在复杂情况下也能提供准确的提取结果。
自动翻译漫画的桌面应用
Comic Translate 是一个桌面应用程序,旨在自动翻译各种格式的漫画,包括BD、Manga、Manhwa、Fumetti等,支持多种语言。它利用了GPT-4的强大翻译能力,特别适用于翻译那些其他翻译器难以准确翻译的语言对,如韩语、日语到英语的翻译。该应用支持多种文件格式,如图像、PDF、Epub、cbr、cbz等,为用户提供了一种便捷的方式来享受不同语言的漫画内容。
Python封装的Doc2X API,增强PDF处理。
pdfdeal是一个Python封装的Doc2X API工具,它提供了本地PDF处理功能,旨在提高PDF在RAG中的召回率。该工具支持多种输出格式,包括文本、Markdown、PDF等,并且可以自定义OCR语言和使用GPU加速。它还支持Doc2X,该服务每日有500页的免费使用额度,特别擅长表格和公式的识别。
低代码构建多Agent大模型应用的开发工具
LazyLLM是一个致力于简化人工智能应用构建流程的开发工具,它通过提供低代码的解决方案,使得开发者即使不了解大模型也能轻松组装包含多个Agent的AI应用。LazyLLM支持一键部署所有模块,跨平台兼容,自动进行网格搜索参数优化,以及高效的模型微调,从而提升应用效果。
一站式数据解析平台,优化数据与通用人工智能框架的兼容性。
OmniParse是一个数据解析平台,能够将各种非结构化数据转换为结构化、可操作的数据,特别适用于通用人工智能(GenAI)应用。它支持文档、表格、图片、视频、音频文件和网页等数据类型,通过提供清洁、结构化的数据,为人工智能应用如RAG、微调等做好准备。
ComfyUI的节点,能够根据用户指令生成任何类型的输出。
AnyNode是一个为ComfyUI设计的插件,它利用LLMs(大型语言模型)的能力,根据用户的输入生成所需的输出。它支持使用OpenAI API或本地LLMs API,允许用户通过简单的配置和指令,实现复杂的编程任务,无需编写代码。该插件的主要优点包括易用性、灵活性和强大的功能,能够显著提高开发效率,尤其适合需要快速原型开发和自动化任务的开发者。
端侧可用的GPT-4V级多模态大模型
MiniCPM-Llama3-V 2.5 是 OpenBMB 项目中最新发布的端侧多模态大模型,具备8B参数量,支持超过30种语言的多模态交互,并在多模态综合性能上超越了多个商用闭源模型。该模型通过模型量化、CPU、NPU、编译优化等技术实现了高效的终端设备部署,具有优秀的OCR能力、可信行为以及多语言支持等特点。
Gemini Recognize和注释代码截图的OCR工具
Pic2Code是由Gemini Recognize提供支持的代码截图OCR工具。它可以识别和注释从视频或文章中粘贴的代码截图。通过使用Pic2Code,用户可以省去手动敲代码的步骤,提高工作效率。
使用所有最新的llms订阅一项服务。
AllNewModels是一个网站,提供了许多最新的llms模型。该网站的主要优点是用户可以在一个订阅中使用所有最新的llms模型。它为用户提供了更多选择和灵活性,无需单独购买和使用不同的模型。AllNewModels的定位是为专业人士提供的。
用我们的OCR词典和其他语言学习工具,轻松学习日语
Gengo是一款集成OCR词典和工具的漫画和轻小说阅读器,专为有效学习日语而设计。该项目在AJATT和其他沉浸式语言学习方法以及缺乏坚实跨平台替代品的“Kaku”安卓应用的启发下诞生。
开源的基于深度文档理解的RAG(检索增强生成)引擎
RAGFlow是一个开源的RAG(Retrieval-Augmented Generation)引擎,基于深度文档理解,提供流线型的RAG工作流程,适用于各种规模的企业。它结合了大型语言模型(LLM)提供真实的问答能力,支持从各种复杂格式数据中引用确凿的引文。
将手写笔记、表格、文件等转换为数字文本,使用我们基于人工智能的OCR引擎,无与伦比的准确性。
手写文字转换为文本的最准确工具,采用人工智能技术,能够将各种难以辨认的手写文字转换为数字文本,大大节省了编辑时间,提高了工作效率。产品的主要优点是准确性高、速度快,可适用于各种手写文本的转换需求。价格灵活,可按页收费或订阅。
手写识别AI助手
Pen2txt是一款利用OCR和人工智能进行手写文本识别的产品。它可以将手写笔记转换为可编辑、可搜索的数字文本,适用于学生、专业人士以及任何需要将纸质文件转换为数字形式的人群。Pen2txt凭借准确、可搜索和可编辑的结果,提高了工作效率。
快速将图片中的文字转换为可编辑文本
2txt是一个在线OCR工具,能够将图片中的文字内容快速识别并转换成可编辑的文本格式。它支持多种语言的识别,并且操作简单,用户只需上传图片即可获得结果。该工具不存储用户上传的图片,保证了用户数据的隐私安全。
使你的图像具有可搜索性
Searchable是一款让图像具有可搜索性的工具。它的主要功能是通过OCR技术从图像中提取文本信息,并建立索引,使用户可以根据图像内容进行文本搜索和语义搜索。该产品的优势在于支持多种语言OCR、可自定义搜索范围等。它面向设计师、开发者等有图像搜索需求的用户群体,提供免费试用和付费服务。
一键翻译各类图片内文字
该项目可以将漫画/图片中的文字进行翻译,主要功能包括文本检测、光学字符识别(OCR)、机器翻译和图像修补。它支持多种语言如日语、中文、英语和韩语等,可实现近乎完美的翻译效果。该项目主要面向漫画爱好者和图像处理工作者,可以方便地阅读外语漫画或进行图像的多语言处理。此外,它还提供Web服务、在线演示和命令行工具等多种使用方式,具有良好的可用性。该项目代码开源,欢迎大家一起完善和贡献。
© 2024 AIbase 备案号:闽ICP备08105208号-14