需求人群:
"目标受众包括需要高精度文档转换服务的开发者和企业,特别是那些对数据隐私和安全性有高要求的用户。该API适合需要将大量文档转换为结构化数据的场合,如法律文件、医疗报告和财务发票等。"
使用场景示例:
将MRI报告转换为Markdown和JSON
将发票转换为JSON并去除PII
使用不同的OCR策略进行PDF到Markdown的转换
产品特色:
高精度PDF到Markdown和JSON的转换
使用PyTorch基于Marker的OCR和Ollama模型进行本地处理
支持LLM改进OCR文本结果
去除PDF中的个人身份信息(PII)
分布式队列处理使用Celery
使用Redis缓存OCR结果
命令行工具用于发送任务和处理结果
使用教程:
1. 克隆仓库到本地
2. 设置环境变量并创建.env文件
3. 使用Docker Compose构建并运行Docker容器
4. 使用CLI工具上传文件进行OCR转换
5. 获取OCR结果
6. 清除OCR缓存
浏览量:7
最新流量情况
月访问量
4.89m
平均访问时长
00:06:37
每次访问页数
5.70
跳出率
37.28%
流量来源
直接访问
52.59%
自然搜索
32.74%
邮件
0.05%
外链引荐
12.33%
社交媒体
2.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.61%
德国
3.57%
印度
9.68%
俄罗斯
4.81%
美国
18.94%
高精度将图片或PDF转换为Markdown文本或JSON结构化文档的API
pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Markdown的高精度转换,包括表格数据、数字或数学公式,并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外,该API还支持LLM改进OCR结果,去除PDF中的个人身份信息(PII),以及分布式队列处理和缓存。
自动化数据提取
Airparser是一款基于GPT技术的自动化数据提取工具,可以从电子邮件、PDF和文档中提取结构化数据,并实时导出到任何应用程序。它具有OCR引擎,可以轻松从扫描的文档、图像和手写笔记中提取数据。用户可以通过API或自动化平台导入文档,然后使用Airparser的AI和GPT技术进行高效的数据提取。Airparser可以将解析的数据发送到Webhooks,并支持Excel、CSV或JSON格式的导出,可以与Zapier和Make等6000多个应用程序进行无缝集成。
自动化消息和构建自定义工作流程的通信接口
OpenPhone API 是一个为企业提供的电话系统和通信接口,它允许用户将电话、短信和联系人更深入地集成到他们的技术栈中。这个API支持自动化消息发送,保持联系人同步,记录CRM中的活动,并构建自定义集成。它使用API密钥进行身份验证,确保对账户数据和功能的安全性访问。OpenPhone API 的主要优点包括简化系统操作,通过单一工具替代多个平台,以及提供以前通过Webhook无法访问的关键信息。
基于ComfyUI前端开发的LLM工作流节点集合
ComfyUI LLM Party旨在基于ComfyUI前端开发一套完整的LLM工作流节点集合,使用户能够快速便捷地构建自己的LLM工作流,并轻松地将它们集成到现有的图像工作流中。
JSON数据生成工具,帮助创建和管理JSON数据结构
JSONGenerator是一个为开发者、测试人员和教育工作者设计的终极数据生成工具,它通过使用模板来定义和生成精确及随机的JSON数据。该工具简化了手动构建JSON数据的过程,提供了一致性和大量数据的快速生成,同时支持数据结构的灵活修改。它遵循RFC 8259和ECMA-404标准,确保生成的JSON数据是经过验证和优化的。
通过GPT等大型语言模型与你的文档对话
IncarnaMind是一个开源项目,旨在通过大型语言模型(LLMs)如GPT、Claude和本地开源LLMs,实现与个人文档(PDF、TXT)的交互对话。该项目利用滑动窗口分块机制和集成检索器,提高查询效率,增强LLMs的准确性。它支持多文档对话问答,突破了单文档限制,并兼容多种文件格式和LLM模型。
无限令牌,无限制,成本效益高的LLM推理API平台。
Awan LLM是一个提供无限令牌、无限制、成本效益高的LLM(大型语言模型)推理API平台,专为高级用户和开发者设计。它允许用户无限制地发送和接收令牌,直到模型的上下文限制,并且使用LLM模型时没有任何约束或审查。用户只需按月付费,而无需按令牌付费,这大大降低了成本。Awan LLM拥有自己的数据中心和GPU,因此能够提供这种服务。此外,Awan LLM不记录任何提示或生成内容,保护用户隐私。
一站式LLM模型比较与优化平台
Unify AI是一个为开发者设计的平台,它允许用户通过一个统一的API访问和比较来自不同提供商的大型语言模型(LLMs)。该平台提供了实时性能基准测试,帮助用户根据质量、速度和成本效率来选择和优化最合适的模型。Unify AI还提供了定制路由功能,允许用户根据自己的需求设置成本、延迟和输出速度的约束,并定义自定义质量指标。此外,Unify AI的系统会根据最新的基准数据,每10分钟更新一次,将查询发送到最快提供商,确保持续达到峰值性能。
将LLM接入Comfy UI的插件
Tara是一款插件,可以将大型语言模型(LLM)接入到Comfy UI中,支持简单的API设置,并集成LLaVa模型。其中包含TaraPrompter节点用于生成精确结果、TaraApiKeyLoader节点管理API密钥、TaraApiKeySaver节点安全保存密钥、TaraDaisyChainNode节点串联输出实现复杂工作流。
将PDF转换为可搜索的PDF
GetSearchablePDF是一款在线工具,可以将PDF文档转换为可搜索的PDF。它使用先进的OCR技术,可以在几秒钟内识别文本,并将其转换为可搜索的PDF格式。用户只需将PDF文件拖放到输入文件夹中,即可进行转换。该产品具有最高水平的OCR准确性和安全性,还支持手写文字识别。GetSearchablePDF提供不同的定价计划,用户可以根据自己的需求选择合适的套餐。
一站式LLM开发自动化平台
Pulze.ai是一站式LLM开发自动化平台,提供单一API,将所有最佳LLM插入您的产品,并在几分钟内简化您的LLM功能开发。Pulze.ai的API遵循LLMOps最佳实践,并使您的团队轻松使用。Pulze.ai允许您一次测试所有最佳模型,以加速开发。您可以在Pulze.ai内动态控制预算和成本目标,并在扩展时保护您的利润。Pulze.ai还提供企业级安全性,以管理所有用户数据的数据隐私和安全性。Pulze.ai提供了多个功能点,如上传数据源、优化结果、一键部署、实时跟踪和版本控制等。
强大的API,从文档、图像和PDF中提取数据
WAVELINE EXTRACT是一款强大的API,可从文档、图像和PDF中提取数据。它使用AI技术,无需训练数据即可从任何格式的文档中提取数据。它支持各种格式,包括PDF、图像和电子表格文件。WAVELINE EXTRACT有三种不同的定价计划,包括免费的STARTER计划、POPULAR PRO计划和ENTERPRISE计划。它适用于各种场景,包括运输文件、简历和护照等。WAVELINE EXTRACT的主要功能包括从PDF中提取所有数据、从各种格式中提取数据、自定义定价和本地解决方案等。
AI 易用的全能产品构建平台
Eden AI 提供一站式 API 接入,涵盖多种 AI 技术,包括生成式 AI、文本分析、图像分析、视频分析、OCR / 文档解析、语音转录等。产品具有易用性、多样性和高效性的优势。详细定价和定位信息请访问官方网站。
利用Claude 3.5 Sonnet Vision API进行图像中物体检测和可视化的强大Python工具
Claude Vision Object Detection是一个基于Python的工具,它利用Claude 3.5 Sonnet Vision API来检测图像中的物体并进行可视化。该工具能够自动在检测到的物体周围绘制边界框,对它们进行标记,并显示置信度分数。它支持处理单张图片或整个目录中的图片,并且具有高精度的置信度分数,为每个检测到的物体使用鲜艳且不同的颜色。此外,它还能保存带有检测结果的注释图片。
开发者可使用的Grok系列基础模型API
xAI API提供了对Grok系列基础模型的程序化访问,支持文本和图像输入,具有128,000个token的上下文长度,并支持函数调用和系统提示。该API与OpenAI和Anthropic的API完全兼容,简化了迁移过程。产品背景信息显示,xAI正在进行公共Beta测试,直至2024年底,期间每位用户每月可获得25美元的免费API积分。
国内领先的LLM一站式企业解决方案
Chat Nio是一个国内领先的LLM(Large Language Model)一站式企业解决方案,提供强大的AI集成工具,支持35+主流AI模型,涵盖文本生成、图像创作、音频处理和视频编辑等领域,并支持私有化部署和中转服务。它为开发者、个人用户和企业提供定制化的AI解决方案,包括但不限于多租户令牌分发、计费管理系统、深度集成Midjourney Proxy Plus绘画功能、全方位调用日志记录系统等。Chat Nio以其多功能性、灵活性和易用性,满足企业和团队的多样化需求,帮助他们高效开发和部署AI应用。
AI驱动的电子元件分类器,智能组件管理的终极解决方案。
Vanguard-s/Electronic-Component-Sorter是一个利用机器学习和人工智能自动化识别和分类电子元件的项目。该项目通过深度学习模型,能够将电子元件分为电阻、电容、LED、晶体管等七大类,并通过OCR技术进一步获取元件的详细信息。它的重要性在于减少人工分类错误,提高效率,确保安全性,并帮助视觉障碍人士更便捷地识别电子元件。
从实体书籍中提取划线或手写标记的文本
Excerptor是一个专门设计来从实体书籍中提取划线或手写标记文本的工具。它通过图像处理和光学字符识别技术,将书籍中的标记文本转换为数字格式,方便用户编辑和保存。这项技术的重要性在于它能够帮助用户快速从大量书籍中提取关键信息,提高研究和学习的效率。Excerptor以其高效、准确的文本识别能力和用户友好的操作界面,满足了学术研究、教育和个人学习等不同领域的需求。目前,Excerptor是免费提供给用户的,它的开发和维护由开源社区负责。
开源全栈平台,为打造顶级LLM产品提供支持
Laminar是一个开源的全栈平台,专注于从第一性原理出发进行AI工程。它帮助用户收集、理解和使用数据,以提高大型语言模型(LLM)应用的质量。Laminar支持对文本和图像模型的追踪,并且即将支持音频模型。产品的主要优点包括零开销的可观测性、在线评估、数据集构建和LLM链管理。Laminar完全开源,易于自托管,适合需要构建和管理LLM产品的开发者和团队。
AI优先的基础设施API,提供搜索、推荐和RAG服务
Trieve是一个AI优先的基础设施API,结合了语言模型和工具,用于微调排名和相关性,提供一站式的搜索、推荐、RAG和分析解决方案。它能够自动持续改进,基于数十个反馈信号,确保相关性。Trieve支持语义向量搜索、BM25和SPlade全文搜索,以及混合搜索,结合全文搜索和语义向量搜索。此外,它还提供了商品推销和相关性调整功能,帮助用户通过API或无代码仪表板调整搜索结果以实现KPI。Trieve建立在最佳基础之上,使用开源嵌入模型和LLMs,运行在自己的服务器上,确保数据安全。
A tool for integrating private data with AI large language models.
Dabarqus是一个Retrieval Augmented Generation(RAG)框架,它允许用户将私有数据实时提供给大型语言模型(LLM)。这个工具通过提供REST API、SDKs和CLI工具,使得用户能够轻松地将各种数据源(如PDF、电子邮件和原始数据)存储到语义索引中,称为“记忆库”。Dabarqus支持LLM风格的提示,使用户能够以简单的方式与记忆库进行交互,而无需构建特殊的查询或学习新的查询语言。此外,Dabarqus还支持多语义索引(记忆库)的创建和使用,使得数据可以根据主题、类别或其他分组方式进行组织。Dabarqus的产品背景信息显示,它旨在简化私有数据与AI语言模型的集成过程,提高数据检索的效率和准确性。
开发者友好的OTP和SMS验证API
Prelude是一个为开发者设计的短信验证API平台,提供低成本、高效率的短信发送服务,帮助开发者在应用中实现用户验证功能。它通过人工智能路由和全球多个短信提供商的合作,确保短信的高到达率和高转化率,同时降低验证成本。Prelude的背景是帮助开发者在全球范围内以更低的成本实现用户验证,促进用户增长。
Anthropic提供的教育课程,涵盖API基础和提示工程等领域。
Anthropic's educational courses是一个在线教育平台,提供关于如何使用Anthropic的API和提示工程技术的课程。这些课程旨在教育用户如何有效地与AI模型交互,提高工作效率和学习新技术。产品背景信息显示,这些课程适合希望深入了解AI技术和API使用的专业人士和学生,课程内容覆盖从基础到高级的多个层面。
Ortlin是与OpenAI模型和API交互的Web界面。
Ortlin是一个基于Web的图形用户界面,旨在帮助任何人(无论是技术用户还是非技术用户)轻松地与OpenAI的API和底层模型进行交互。它是完全免费且开源的,使用户能够无障碍地利用OpenAI的强大功能。
将GitHub链接转换为适合LLM的格式
GitHub to LLM Converter是一个在线工具,旨在帮助用户将GitHub上的项目、文件或文件夹链接转换成适合大型语言模型(LLM)处理的格式。这一工具对于需要处理大量代码或文档数据的开发者和研究人员来说至关重要,因为它简化了数据准备过程,使得这些数据可以被更高效地用于机器学习或自然语言处理任务。该工具由Skirano开发,提供了一个简洁的用户界面,用户只需输入GitHub链接,即可一键转换,极大地提高了工作效率。
macOS平台上的简洁易用翻译词典应用
Easydict是一款专为macOS平台设计的翻译词典应用,它以简洁和易用著称,允许用户轻松优雅地查找单词或翻译文本。这款应用支持多种翻译服务,包括有道词典、DeepL、OpenAI (ChatGPT)、谷歌、腾讯、必应、百度、牛翻译、Lingocloud、阿里和火山翻译等,满足了用户对不同翻译服务的需求。Easydict的主要优点在于其自动选择翻译功能,能够在用户搜索单词后自动显示查询图标,并通过鼠标悬停进行查询。此外,它还支持系统OCR截图翻译,如Silent Screenshot OCR,进一步增强了其实用性。
高效的大型语言模型(LLM)研究代码库
Meta Lingua 是一个轻量级、高效的大型语言模型(LLM)训练和推理库,专为研究而设计。它使用了易于修改的PyTorch组件,使得研究人员可以尝试新的架构、损失函数和数据集。该库旨在实现端到端的训练、推理和评估,并提供工具以更好地理解模型的速度和稳定性。尽管Meta Lingua目前仍在开发中,但已经提供了多个示例应用来展示如何使用这个代码库。
一个全面的Prompt Engineering技术资源库
Prompt Engineering是人工智能领域的前沿技术,它改变了我们与AI技术的交互方式。这个开源项目旨在为初学者和经验丰富的实践者提供一个学习、构建和分享Prompt Engineering技术的平台。该项目包含了从基础到高级的各种示例,旨在促进Prompt Engineering领域的学习、实验和创新。此外,它还鼓励社区成员分享自己的创新技术,共同推动Prompt Engineering技术的发展。
由NVIDIA定制的大型语言模型,提升查询回答的帮助性。
Llama-3.1-Nemotron-70B-Instruct是NVIDIA定制的大型语言模型,专注于提升大型语言模型(LLM)生成回答的帮助性。该模型在多个自动对齐基准测试中表现优异,例如Arena Hard、AlpacaEval 2 LC和GPT-4-Turbo MT-Bench。它通过使用RLHF(特别是REINFORCE算法)、Llama-3.1-Nemotron-70B-Reward和HelpSteer2-Preference提示在Llama-3.1-70B-Instruct模型上进行训练。此模型不仅展示了NVIDIA在提升通用领域指令遵循帮助性方面的技术,还提供了与HuggingFace Transformers代码库兼容的模型转换格式,并可通过NVIDIA的build平台进行免费托管推理。
© 2024 AIbase 备案号:闽ICP备08105208号-14