需求人群:
"OnnxOCR适用于需要快速且准确文本识别的开发者和企业,特别是在资源受限的环境中。无论是在移动设备、嵌入式系统还是服务器上,它都能提供高效的文本识别服务。"
使用场景示例:
在移动应用中集成OnnxOCR,实现拍照翻译功能
使用OnnxOCR进行文档数字化,提高办公自动化效率
在智能监控系统中,利用OnnxOCR进行车牌识别
产品特色:
支持80多种语言的OCR识别
转换为ONNX模型,提高推理速度
独立于深度学习训练框架,易于部署
适用于ARM和x86架构的计算机
在同等性能计算机上,推理速度提升4-5倍
适用于计算能力有限但需要保持准确性的场景
使用教程:
1. 访问OnnxOCR的GitHub页面,了解项目详情
2. 克隆或下载OnnxOCR的代码库
3. 根据项目文档安装所需的依赖项
4. 运行测试脚本,验证OCR模型的推理效果
5. 根据需要调整模型参数,优化性能
6. 将OnnxOCR集成到自己的项目中,实现文本识别功能
浏览量:113
最新流量情况
月访问量
4.85m
平均访问时长
00:06:25
每次访问页数
6.08
跳出率
35.86%
流量来源
直接访问
52.62%
自然搜索
32.72%
邮件
0.05%
外链引荐
12.34%
社交媒体
2.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.55%
德国
3.84%
印度
9.38%
俄罗斯
4.61%
美国
18.64%
轻量级OCR模型,推理速度快
OnnxOCR是基于PaddleOCR重构的轻量级OCR模型,它脱离了PaddlePaddle深度学习训练框架,实现了快速的推理速度。该模型支持超过80种语言的推理,并在转换为ONNX模型后,推理速度比使用PaddlePaddle框架快5倍。OnnxOCR独立于深度学习训练框架,可以直接部署,适用于计算能力有限但需要保持准确性的场景,并且可以在ARM和x86架构的计算机上部署。
OCR解决方案API | 文档OCR文本识别
Pixl OCR Solution API是一款高效的OCR解决方案API,可以简化文档OCR文本识别流程。轻松从图像和文档中提取文本,实现快速信息检索。通过集成我们强大的API,不仅可以降低劳动成本,还能实现更快速和更明智的决策。
基于Kokoro和ONNX运行时的文本到语音(TTS)项目。
kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。
即用即走的翻译、OCR工具
STranslate是一款集成了翻译和OCR功能的在线工具,它支持多种语言翻译,包括输入、划词、截图等多种翻译方式,并能同时显示多个服务的翻译结果,方便用户比较。OCR功能支持中英日韩等多种语言,基于PaddleOCR技术,提供快速准确的识别效果。此外,STranslate还支持多家翻译服务接入,并提供免费API。产品背景信息显示,STranslate由ZGGSONG开发,旨在为用户提供便捷、高效的翻译和OCR服务。
利用大型语言模型增强扫描PDF的OCR输出。
llm_aided_ocr是一个高级系统,旨在显著提高光学字符识别(OCR)输出的质量。通过利用尖端的自然语言处理技术和大型语言模型(LLMs),该项目将原始OCR文本转化为高度准确、格式良好、易读的文档。
Phi-3 Mini-128K-Instruct ONNX优化模型促进推理加速
Phi-3 Mini是一个轻量级的顶尖开源模型,建立在Phi-2使用的合成数据和过滤网站之上,专注于高质量的推理密集型数据。这个模型属于Phi-3系列,mini版本有两个变体支持4K和128K上下文长度。该模型经过了严格的增强过程,包括监督式微调和直接偏好优化,以确保精准遵循指令和强大的安全措施。这些经过ONNX优化的Phi-3 Mini模型可在CPU、GPU和移动设备上高效运行。微软还推出了ONNX Runtime Generate() API,简化了Phi-3的使用。
一种简单直观的PDF OCR工具,使用gpt-4o-mini进行文档转换。
Zerox OCR是一个基于gpt-4o-mini的PDF文档转换工具,它通过将PDF文件转换为图像,然后利用GPT模型将图像内容转换为Markdown格式,从而实现对文档的高效OCR处理。该工具在价格上具有竞争力,并且能够提供比现有产品更有意义的结果。
Phi-3 Mini 量化ONNX模型,支持多硬件平台加速推理
Phi-3 Mini是一款轻量级的最先进的开源大模型,构建于用于Phi-2的合成数据和过滤网站数据之上,致力于提供极高质量、推理密集型的数据。该模型经过了严格的增强过程,结合了监督式微调和直接偏好优化,以确保精确遵循指令和强大的安全措施。该仓库提供了Phi-3 Mini的优化ONNX版本,可通过ONNX Runtime在CPU和GPU上进行加速推理,支持服务器、Windows、Linux、Mac等多种平台,并针对每个平台提供最佳精度配置。ONNX Runtime的DirectML支持还可让开发人员在AMD、英特尔和NVIDIA GPU驱动的Windows设备上实现大规模硬件加速。
免费 npm 库,用 Llama 3.2 Vision 进行 OCR,输出 markdown 文本
开源 npm 库,免费使用 Llama 3.2 Vision 进行 OCR,支持本地和远程图像,计划支持 PDF,受 Zerox 启发,有免费和付费接口
一个强大的OCR(光学字符识别)工具
Ollama-OCR是一个使用最新视觉语言模型的OCR工具,通过Ollama提供技术支持,能够从图像中提取文本。它支持多种输出格式,包括Markdown、纯文本、JSON、结构化数据和键值对,并且支持批量处理功能。这个项目以Python包和Streamlit网络应用的形式提供,方便用户在不同场景下使用。
快速、多语言支持的OCR工具包
RapidOCR是一个基于ONNXRuntime、OpenVINO和PaddlePaddle的OCR多语言工具包。它将PaddleOCR模型转换为ONNX格式,支持Python/C++/Java/C#等多平台部署,具有快速、轻量级、智能的特点,并解决了PaddleOCR内存泄露的问题。
高效CPU本地离线LaTeX识别工具
MixTeX是一个创新的多模态LaTeX识别小程序,由团队独立开发,能够在本地离线环境中执行高效的基于CPU的推理。无论是LaTeX公式、表格还是混合文本,MixTeX都能轻松识别,支持中英文处理。得益于强大的技术支持和优化设计,MixTeX无需GPU资源即可高效运行,适合任何Windows电脑,极大地方便了用户体验。
通过统一的端到端模型实现OCR-2.0
GOT-OCR2.0是一个开源的OCR模型,旨在通过一个统一的端到端模型推动光学字符识别技术向OCR-2.0迈进。该模型支持多种OCR任务,包括但不限于普通文本识别、格式化文本识别、细粒度OCR、多裁剪OCR和多页OCR。它基于最新的深度学习技术,能够处理复杂的文本识别场景,并且具有较高的准确率和效率。
一个针对机器学习优化的多模态 OCR 管道。
该产品是一个专门设计的 OCR 系统,旨在从复杂的教育材料中提取结构化数据,支持多语言文本、数学公式、表格和图表,能够生成适用于机器学习训练的高质量数据集。该系统利用多种技术和 API,能够提供高精度的提取结果,适合学术研究和教育工作者使用。
一个强大的OCR包,使用最先进的视觉语言模型提取图像中的文本。
ollama-ocr是一个基于ollama的光学字符识别(OCR)模型,能够从图像中提取文本。它利用先进的视觉语言模型,如LLaVA、Llama 3.2 Vision和MiniCPM-V 2.6,提供高精度的文本识别。该模型对于需要从图片中获取文本信息的场景非常有用,如文档扫描、图像内容分析等。它开源免费,易于集成到各种项目中。
利用OpenAI的GPT-4 Turbo模型进行高效OCR处理
这是一个开源的OCR API,利用OpenAI强大的语言模型和优化的性能技术(如并行处理和批处理)来实现从复杂PDF文档中提取高质量文本。非常适合寻求高效文档数字化和数据提取解决方案的企业。
将手写笔记、表格、文件等转换为数字文本,使用我们基于人工智能的OCR引擎,无与伦比的准确性。
手写文字转换为文本的最准确工具,采用人工智能技术,能够将各种难以辨认的手写文字转换为数字文本,大大节省了编辑时间,提高了工作效率。产品的主要优点是准确性高、速度快,可适用于各种手写文本的转换需求。价格灵活,可按页收费或订阅。
实时让肖像动起来!支持onnx/tensorrt
FasterLivePortrait是一个基于深度学习的实时肖像动画化项目。它通过使用TensorRT在RTX 3090 GPU上实现30+ FPS的实时运行速度,包括预处理和后处理,而不仅仅是模型推理速度。该项目还实现了将LivePortrait模型转换为Onnx模型,并在RTX 3090上使用onnxruntime-gpu实现约70ms/帧的推理速度,支持跨平台部署。此外,该项目还支持原生gradio app,速度提升数倍,并支持多张人脸的同时推理。代码结构经过重构,不再依赖PyTorch,所有模型使用onnx或tensorrt进行推理。
快速扫描和转换文本
OCR Magic是一款终极文本识别应用,支持几乎所有语言。借助我们先进的光学字符识别技术,您可以轻松扫描和转换图像和文档中的文本为可编辑和可搜索的数字文本。 无论您是学生、专业人士还是只想简化工作流程,OCR Magic都能满足您的需求。只需上传图像或文档,我们的应用程序将快速提取文本并将其翻译为您选择的语言。不再需要重新输入或手动转录 - OCR Magic使得处理任何来源的文本变得轻松。 但这还不是全部 - OCR Magic还配备了一系列有用的功能,以增强您的文本识别体验。支持多种文件格式、自动语言检测和可定制的输出选项,您可以根据自己的需求定制我们的应用程序。 不要再浪费时间手动转录文本 - 立即尝试OCR Magic,革新您的文本识别工作流程!
高效OCR阅读工具,快速获取书籍精华。
小虫快读是一款基于OCR和AI大语言模型的高效阅读工具,通过手机相机拍摄书籍页面,利用先进的OCR技术自动识别文字,AI大语言模型几秒内生成书籍的核心内容和精华总结,并通过AI语音播放功能,让用户轻松听书,解放双眼,提升学习效率。
Gemini Recognize和注释代码截图的OCR工具
Pic2Code是由Gemini Recognize提供支持的代码截图OCR工具。它可以识别和注释从视频或文章中粘贴的代码截图。通过使用Pic2Code,用户可以省去手动敲代码的步骤,提高工作效率。
免费在线OCR和AI图像转文字
GrabText是一款免费在线OCR工具,可以将手写笔记、数学公式和打印文字转换为可编辑的数字内容。支持从图片、纸张、收据、PPT和书籍中转录。可将手写的想法精确转换为Latex公式。
Mistral OCR 是一款先进的光学字符识别 API,能够精准理解和解析复杂文档。
Mistral OCR 是 Mistral AI 推出的一款光学字符识别(OCR)API,旨在通过高效解析文档内容,推动信息的快速提取与应用。它能够处理多种格式的文档,包括 PDF 和图像,并以极高的准确率提取文本、表格、公式和图像等元素。该技术的核心优势在于其对复杂文档的深度理解能力,支持多语言和多模态输入,适用于全球范围内的企业和机构。其定价为每1000页1美元,适合大规模文档处理场景。
AI驱动的图像文字识别服务
EdgeOne Pages Functions:AI OCR是一款基于人工智能技术的图像文字识别服务,它能够将图片中的文字内容转换为可编辑的文本格式。这项技术的重要性在于它极大地提高了文字录入的效率,减少了人工输入的错误率,并且能够处理多种语言的文字识别。产品背景信息显示,EdgeOne提供了一个免费的部署平台,拥有即时全球CDN覆盖,这使得AI OCR服务可以快速、稳定地服务于全球用户。价格方面,用户可以免费部署体验,具体定价策略未在页面中明确说明。
用我们的OCR词典和其他语言学习工具,轻松学习日语
Gengo是一款集成OCR词典和工具的漫画和轻小说阅读器,专为有效学习日语而设计。该项目在AJATT和其他沉浸式语言学习方法以及缺乏坚实跨平台替代品的“Kaku”安卓应用的启发下诞生。
提供文档解析功能,将图片或 PDF 文件转换成 Markdown 格式,实现智能转换
OCR 体验是一个文档解析工具,利用 OCR 技术将图片或 PDF 文件转换成 Markdown 格式文件。其主要优点在于高效转换并智能排版,背景信息源于对文档处理的需求。目前免费使用。
新一代可靠且可定制的OCR解决方案
Koncile Extract是一款基于人工智能的光学字符识别(OCR)技术,能够将文档中的文本转换为可编辑和可搜索的数据。它通过使用先进的计算机视觉和自然语言处理技术,提供了高准确率的文本提取服务。Koncile Extract的主要优点包括高准确率、易于定制以及能够处理复杂文档的能力。产品背景信息显示,Koncile旨在通过其OCR技术帮助企业提高数据处理效率,降低人工成本。关于价格和定位,Koncile Extract提供定制化的解决方案,以满足不同企业的需求,具体价格可能需要根据客户需求进行商议。
© 2025 AIbase 备案号:闽ICP备08105208号-14