需求人群:
"目标受众包括需要高精度文档转换服务的开发者和企业,特别是那些对数据隐私和安全性有高要求的用户。该API适合需要将大量文档转换为结构化数据的场合,如法律文件、医疗报告和财务发票等。"
使用场景示例:
将MRI报告转换为Markdown和JSON
将发票转换为JSON并去除PII
使用不同的OCR策略进行PDF到Markdown的转换
产品特色:
高精度PDF到Markdown和JSON的转换
使用PyTorch基于Marker的OCR和Ollama模型进行本地处理
支持LLM改进OCR文本结果
去除PDF中的个人身份信息(PII)
分布式队列处理使用Celery
使用Redis缓存OCR结果
命令行工具用于发送任务和处理结果
使用教程:
1. 克隆仓库到本地
2. 设置环境变量并创建.env文件
3. 使用Docker Compose构建并运行Docker容器
4. 使用CLI工具上传文件进行OCR转换
5. 获取OCR结果
6. 清除OCR缓存
浏览量:23
最新流量情况
月访问量
4.95m
平均访问时长
00:06:29
每次访问页数
5.68
跳出率
37.69%
流量来源
直接访问
51.66%
自然搜索
33.21%
邮件
0.04%
外链引荐
12.84%
社交媒体
2.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.79%
德国
3.71%
印度
9.03%
俄罗斯
4.40%
美国
18.49%
高精度将图片或PDF转换为Markdown文本或JSON结构化文档的API
pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Markdown的高精度转换,包括表格数据、数字或数学公式,并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外,该API还支持LLM改进OCR结果,去除PDF中的个人身份信息(PII),以及分布式队列处理和缓存。
快速高效的非结构化数据提取工具
Extractous是一个用Rust编写的非结构化数据提取工具,提供多语言绑定。它专注于从各种文件类型(如PDF、Word、HTML等)中提取内容和元数据,并且性能优异,内存占用低。Extractous通过原生代码执行实现快速处理速度和低内存使用,支持多种文件格式,并集成了Apache Tika和tesseract-ocr技术,使其能够处理广泛的文件类型并进行OCR识别。该工具的开源性质和Apache 2.0许可使其可以免费用于商业用途,适合需要处理大量文档数据的企业和开发者。
自动化数据提取
Airparser是一款基于GPT技术的自动化数据提取工具,可以从电子邮件、PDF和文档中提取结构化数据,并实时导出到任何应用程序。它具有OCR引擎,可以轻松从扫描的文档、图像和手写笔记中提取数据。用户可以通过API或自动化平台导入文档,然后使用Airparser的AI和GPT技术进行高效的数据提取。Airparser可以将解析的数据发送到Webhooks,并支持Excel、CSV或JSON格式的导出,可以与Zapier和Make等6000多个应用程序进行无缝集成。
AI代理的人工在环反馈、输入和审批API及SDK
HumanLayer是一个API和SDK,它允许AI代理联系人类以获取反馈、输入和审批。它通过审批工作流程在Slack、电子邮件等渠道上确保对高风险功能调用的人类监督,支持将您选择的LLM和框架与AI代理安全连接到世界。HumanLayer得到了Y Combinator的支持,并且与多种流行的框架和LLM兼容,包括OpenAI、Claude、Llama3.1等。它提供了一个平台,通过人工在环的方式,增强AI代理的能力,提高其可靠性和效率。HumanLayer的价格策略包括免费、付费和定制企业方案,满足不同用户的需求。
一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
MinerU是一个开源工具,专注于将PDF文件转换成机器可读的格式,如Markdown和JSON,便于内容的提取和进一步处理。它在科学文献中解决符号转换问题,支持多种输出格式,并兼容多种操作系统。MinerU的主要优点包括去除页眉、页脚、脚注等,保持文档原有结构,自动识别和转换文档中的公式和表格,支持OCR功能,并且支持多达84种语言的检测和识别。
自动化消息和构建自定义工作流程的通信接口
OpenPhone API 是一个为企业提供的电话系统和通信接口,它允许用户将电话、短信和联系人更深入地集成到他们的技术栈中。这个API支持自动化消息发送,保持联系人同步,记录CRM中的活动,并构建自定义集成。它使用API密钥进行身份验证,确保对账户数据和功能的安全性访问。OpenPhone API 的主要优点包括简化系统操作,通过单一工具替代多个平台,以及提供以前通过Webhook无法访问的关键信息。
基于ComfyUI前端开发的LLM工作流节点集合
ComfyUI LLM Party旨在基于ComfyUI前端开发一套完整的LLM工作流节点集合,使用户能够快速便捷地构建自己的LLM工作流,并轻松地将它们集成到现有的图像工作流中。
JSON数据生成工具,帮助创建和管理JSON数据结构
JSONGenerator是一个为开发者、测试人员和教育工作者设计的终极数据生成工具,它通过使用模板来定义和生成精确及随机的JSON数据。该工具简化了手动构建JSON数据的过程,提供了一致性和大量数据的快速生成,同时支持数据结构的灵活修改。它遵循RFC 8259和ECMA-404标准,确保生成的JSON数据是经过验证和优化的。
通过GPT等大型语言模型与你的文档对话
IncarnaMind是一个开源项目,旨在通过大型语言模型(LLMs)如GPT、Claude和本地开源LLMs,实现与个人文档(PDF、TXT)的交互对话。该项目利用滑动窗口分块机制和集成检索器,提高查询效率,增强LLMs的准确性。它支持多文档对话问答,突破了单文档限制,并兼容多种文件格式和LLM模型。
无限令牌,无限制,成本效益高的LLM推理API平台。
Awan LLM是一个提供无限令牌、无限制、成本效益高的LLM(大型语言模型)推理API平台,专为高级用户和开发者设计。它允许用户无限制地发送和接收令牌,直到模型的上下文限制,并且使用LLM模型时没有任何约束或审查。用户只需按月付费,而无需按令牌付费,这大大降低了成本。Awan LLM拥有自己的数据中心和GPU,因此能够提供这种服务。此外,Awan LLM不记录任何提示或生成内容,保护用户隐私。
一站式LLM模型比较与优化平台
Unify AI是一个为开发者设计的平台,它允许用户通过一个统一的API访问和比较来自不同提供商的大型语言模型(LLMs)。该平台提供了实时性能基准测试,帮助用户根据质量、速度和成本效率来选择和优化最合适的模型。Unify AI还提供了定制路由功能,允许用户根据自己的需求设置成本、延迟和输出速度的约束,并定义自定义质量指标。此外,Unify AI的系统会根据最新的基准数据,每10分钟更新一次,将查询发送到最快提供商,确保持续达到峰值性能。
将LLM接入Comfy UI的插件
Tara是一款插件,可以将大型语言模型(LLM)接入到Comfy UI中,支持简单的API设置,并集成LLaVa模型。其中包含TaraPrompter节点用于生成精确结果、TaraApiKeyLoader节点管理API密钥、TaraApiKeySaver节点安全保存密钥、TaraDaisyChainNode节点串联输出实现复杂工作流。
将PDF转换为可搜索的PDF
GetSearchablePDF是一款在线工具,可以将PDF文档转换为可搜索的PDF。它使用先进的OCR技术,可以在几秒钟内识别文本,并将其转换为可搜索的PDF格式。用户只需将PDF文件拖放到输入文件夹中,即可进行转换。该产品具有最高水平的OCR准确性和安全性,还支持手写文字识别。GetSearchablePDF提供不同的定价计划,用户可以根据自己的需求选择合适的套餐。
一站式LLM开发自动化平台
Pulze.ai是一站式LLM开发自动化平台,提供单一API,将所有最佳LLM插入您的产品,并在几分钟内简化您的LLM功能开发。Pulze.ai的API遵循LLMOps最佳实践,并使您的团队轻松使用。Pulze.ai允许您一次测试所有最佳模型,以加速开发。您可以在Pulze.ai内动态控制预算和成本目标,并在扩展时保护您的利润。Pulze.ai还提供企业级安全性,以管理所有用户数据的数据隐私和安全性。Pulze.ai提供了多个功能点,如上传数据源、优化结果、一键部署、实时跟踪和版本控制等。
强大的API,从文档、图像和PDF中提取数据
WAVELINE EXTRACT是一款强大的API,可从文档、图像和PDF中提取数据。它使用AI技术,无需训练数据即可从任何格式的文档中提取数据。它支持各种格式,包括PDF、图像和电子表格文件。WAVELINE EXTRACT有三种不同的定价计划,包括免费的STARTER计划、POPULAR PRO计划和ENTERPRISE计划。它适用于各种场景,包括运输文件、简历和护照等。WAVELINE EXTRACT的主要功能包括从PDF中提取所有数据、从各种格式中提取数据、自定义定价和本地解决方案等。
AI 易用的全能产品构建平台
Eden AI 提供一站式 API 接入,涵盖多种 AI 技术,包括生成式 AI、文本分析、图像分析、视频分析、OCR / 文档解析、语音转录等。产品具有易用性、多样性和高效性的优势。详细定价和定位信息请访问官方网站。
基于InternViT-6B-448px-V1-5的增强版视觉模型
InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型,通过使用ViT增量学习与NTP损失(阶段1.5),提升了视觉编码器提取视觉特征的能力,尤其是在大规模网络数据集中代表性不足的领域,如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分,保留了与前代相同的“ViT-MLP-LLM”模型架构,并集成了新增量预训练的InternViT与各种预训练的LLMs,包括InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。
将学术论文转换成生动的播客形式
Paper-to-Podcast是一个将学术论文转换成播客形式的工具,通过模拟三个人的讨论来让听众以更自然和人性化的方式理解论文内容。它不仅使复杂的信息更易于吸收,还提供了宝贵的洞见和批判性思考。该工具使用了OpenAI API进行文本到语音的转换,生成具有不同角色特点的逼真声音,使得听众可以在通勤或旅行时通过听而不是读来吸收研究论文的内容。
一个用于可视化和探索微软GraphRAG工具的网络工具。
GraphRAG Visualizer是一个基于网络的工具,旨在可视化和探索微软GraphRAG工具产生的数据。GraphRAG是微软开发的一种用于生成图结构数据的技术,GraphRAG Visualizer通过让用户上传parquet文件,无需额外软件或脚本即可轻松查看和分析数据。该工具的主要优点包括图形可视化、数据表格展示、搜索功能以及本地处理数据,确保数据安全和隐私。
开源知识图谱工作室,助力构建动态图谱AI工作流
WhyHow Knowledge Graph Studio是一个开源平台,旨在简化创建和管理RAG-native知识图谱的过程。该平台提供基于规则的实体解析、模块化图构建、灵活的数据摄取以及API优先设计,并支持SDK。它基于NoSQL数据库构建,提供灵活、可扩展的存储层,使复杂关系的数据检索和遍历变得容易。该平台适用于处理结构化和非结构化数据,构建探索性图谱或高度模式化约束图谱,旨在实现规模化和灵活性,适用于实验和大规模使用。
实时任务进度更新平台
Trigger.dev Realtime是一个提供实时任务进度更新的平台,允许用户从前端或后端订阅任务运行状态,并实时接收更新。这项技术的重要性在于它能够桥接长时间运行的后台任务与应用程序之间的信息鸿沟,使用户能够实时了解任务状态,提升用户体验。产品背景信息显示,该平台已经与60多个组织合作,包括Midday.ai、Cookbook AI和Papermark.io等,它们都在生产中使用Realtime API。价格方面,Trigger.dev提供Hobby和Pro计划,分别支持50和500个并发连接,并且可以根据需要增加此限制。
API工具平台,提供SDK、API文档、Terraform提供商和端到端测试。
Speakeasy是一个专注于API工具的平台,它提供一流的SDK、API文档、Terraform提供商和端到端测试功能。这个平台以OpenAPI为基础,支持多种编程语言,帮助开发者提高API集成效率,减少API支持成本,并扩大API的潜在用户群体。Speakeasy通过自动化SDK生产,帮助企业以成本效益的方式满足客户的编程语言需求,降低集成成本。
快速部署会说话的AI代理
ElevenLabs Conversational AI是一款能够快速部署在网页、移动设备或电话上的语音代理产品。它以低延迟、全配置性和无缝扩展性为特点,支持自然对话中的轮流发言和打断处理,适用于嘈杂环境中的不可预测对话。产品结合了语音转文本、大型语言模型(LLM)和文本转语音技术,支持多语言和自定义声音,适用于客户支持、调度、外呼销售等多种场景。
开源无头浏览器API,云端控制浏览器舰队。
Steel是一个开源的无头浏览器API,允许用户在云端控制浏览器舰队。它支持开发者使用简单的API调用来创建即时的浏览器会话,具备自动解决CAPTCHA、代理和浏览器指纹识别等功能,以避免被标记为机器人。Steel适用于大规模的网络抓取任务和完全自动化的网络代理,使得在云端运行浏览器自动化任务变得简单。产品背景信息显示,Steel提供了80亿以上的Token抓取量和超过200,000小时的浏览器服务,平均会话启动时间少于1秒。价格方面,Steel提供了免费套餐和多种付费套餐,以满足不同规模用户的需求。
AI驱动的多智能体数据分析系统
AI-Data-Analysis-MultiAgent是一个高级的AI驱动研究助理系统,利用多个专业智能体协助进行数据分析、可视化和报告生成等任务。该系统采用LangChain、OpenAI的GPT模型和LangGraph处理复杂的研究流程,集成多样化的AI架构以实现最佳性能。该系统的独特之处在于集成了一个专门的Note Taker智能体,通过维护项目的简洁而全面的记录,可以降低计算开销,提高不同分析阶段之间的上下文保持能力,并实现更连贯一致的分析结果。
文档智能的视觉引导生成文本布局预训练模型
ViTLP是一个视觉引导的生成文本布局预训练模型,旨在提高文档智能处理的效率和准确性。该模型结合了OCR文本定位和识别功能,能够在文档图像上进行快速准确的文本检测和识别。ViTLP模型的预训练版本ViTLP-medium(380M参数)在计算资源和预训练数据集规模的限制下,提供了一个平衡的解决方案,既保证了模型的性能,又优化了推理速度和内存使用。ViTLP的推理速度在Nvidia 4090上处理一页文档图像通常在5到10秒内,与大多数OCR引擎相比具有竞争力。
自动化网络工具,创建、运行和扩展网络自动化。
H是一个致力于网络自动化的产品,它允许用户创建、运行和扩展网络自动化任务。这项技术的重要性在于它能够提高工作效率,减少重复性劳动,让用户能够专注于更有创造性和战略性的任务。H的背景信息显示,它是一个API beta产品,目前正在招募用户参与测试。产品的主要优点包括提高效率、减少错误和节省时间。关于价格和定位,目前没有具体的信息,但用户可以加入等待名单以开始构建与H相关的项目。
© 2024 AIbase 备案号:闽ICP备08105208号-14