一个支持从PDF、图像、办公文档等多种格式中提取文本的Python库。
Kreuzberg是一个现代Python库,专注于从各种文档中提取文本。它通过简洁的API和本地处理能力,为用户提供高效的文本提取解决方案。该库支持多种文件格式,包括PDF、图像、办公文档等,无需复杂的配置或外部API调用。它采用异步接口设计,提高了处理效率,同时保持了轻量级的资源占用。Kreuzberg适用于需要本地化文本提取的场景,如RAG应用等,其主要优点是简单易用、资源高效且功能强大。
将数据一键转换为交互式可视化应用。
PyGWalker是一个Python库,能够将数据轻松转换为交互式可视化应用,支持一键分享。它提供了数据清洗、注释和实时分析视图等功能,使得数据分析变得简单且可扩展。
通用HTML数据提取器
magic-html是一个Python库,旨在简化从HTML中提取主体区域内容的过程。它提供了一套工具,能够轻松地从HTML中提取主体区域内容,无论处理的是复杂的HTML结构还是简单的网页,这个库都旨在为用户提供一个便捷高效的接口。它支持多模态抽取,支持多种版面extractor,包括文章、论坛和微信文章,还支持latex公式提取转换。
利用知识图谱和文档网络增强语言模型性能
Knowledge Graph RAG 是一个开源的Python库,它通过创建知识图谱和文档网络来增强大型语言模型(LLM)的性能。这个库允许用户通过图谱结构来搜索和关联信息,从而为语言模型提供更丰富的上下文。它主要应用于自然语言处理领域,尤其是在文档检索和信息抽取任务中。
统一高效的RAG检索微调和推理框架
RAG-Retrieval是一个全链路的RAG检索微调和推理框架,支持多种RAG Reranker模型的推理,包括向量模型、迟交互式模型和交互式模型。它提供了一个轻量级的Python库,使得用户能够以统一的方式调用不同的RAG排序模型,简化了排序模型的使用和部署。
将数据和AI算法快速转化为生产就绪的Web应用
Taipy是一个开源的Python库,用于简化端到端应用开发,提供假设分析、智能管道执行、内置调度和部署工具。它允许数据科学家和机器学习工程师构建全栈应用,无需学习新的语言或全栈框架,专注于数据和AI算法,同时简化开发和部署的复杂性。
© 2025 AIbase 备案号:闽ICP备08105208号-14