需求人群:
"Crawlee 适合需要构建数据爬取和网页自动化工具的开发者。无论是需要从静态 HTML 页面还是依赖客户端 JavaScript 生成内容的动态网站中提取数据,Crawlee 都能够提供强大的支持。它的易用性和灵活性使其成为数据科学家、机器学习工程师和 web 开发者的理想选择。"
使用场景示例:
使用 BeautifulSoupCrawler 高效提取 HTML 内容数据。
利用 PlaywrightCrawler 处理 JavaScript 重型网站的数据抓取。
通过 Crawlee CLI 快速启动和配置新的爬虫项目。
产品特色:
统一的 HTTP 和无头浏览器爬取接口
基于系统资源的自动并行爬取
Python 类型提示,增强开发体验
自动错误重试和防屏蔽功能
集成代理轮换和会话管理
可配置的请求路由和持久化 URL 队列
支持多种数据和文件存储方式
健壮的错误处理机制
使用教程:
安装 Crawlee: pip install crawlee
根据需要安装额外的依赖,例如 beautifulsoup 或 playwright
使用 Crawlee CLI 创建新的爬虫项目: pipx run crawlee create my-crawler
选择一个模板并根据项目需求进行配置
编写爬虫逻辑,包括数据提取和链接抓取
运行爬虫并观察结果
浏览量:24
最新流量情况
月访问量
4.89m
平均访问时长
00:06:37
每次访问页数
5.70
跳出率
37.28%
流量来源
直接访问
52.59%
自然搜索
32.74%
邮件
0.05%
外链引荐
12.33%
社交媒体
2.17%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.61%
德国
3.57%
印度
9.68%
俄罗斯
4.81%
美国
18.94%
Python 网络爬虫和浏览器自动化库
Crawlee 是一个用于构建可靠爬虫的 Python 网络爬虫和浏览器自动化库,提取数据用于AI、LLMs、RAG或GPTs。它提供了统一的接口来处理 HTTP 和无头浏览器爬取任务,支持自动并行爬取,基于系统资源进行调整。Crawlee 用 Python 编写,包含类型提示,增强了开发体验并减少了错误。它具备自动重试、集成代理轮换和会话管理、可配置的请求路由、持久化 URL 队列、可插拔的存储选项等功能。相较于 Scrapy,Crawlee 提供了对无头浏览器爬取的原生支持,拥有简洁优雅的接口,并且完全基于标准的异步 IO。
快速构建健壮的AI代理项目
AgentStack是一个用于快速创建AI代理项目的命令行工具。它基于Python 3.10+,支持多种流行的代理框架,如CrewAI、Autogen和LiteLLM,并集成了多种工具,以简化开发过程。AgentStack的设计理念是简化从零开始构建AI代理的过程,无需复杂的配置,即可快速启动和运行代理项目。它还提供了一个交互式测试运行器、实时开发服务器以及生产环境的构建脚本。AgentStack是开源的,遵循MIT许可协议,适合希望快速进入AI代理开发的开发者。
多智能体系统构建、编排和部署框架
Swarm是由OpenAI Solutions团队管理的实验性框架,旨在构建、编排和部署多智能体系统。它通过定义智能体(Agent)和交接(handoffs)的抽象概念,实现了智能体之间的协调和执行。Swarm框架强调轻量级、高可控性和易于测试,适用于需要大量独立功能和指令的场景,允许开发者拥有完全的透明度和对上下文、步骤和工具调用的细粒度控制。Swarm框架目前处于实验阶段,不推荐在生产环境中使用。
一个简单而强大的Python库,用于使用大型语言模型(LLMs)。
promptic是一个轻量级、基于装饰器的Python库,它通过litellm简化了与大型语言模型(LLMs)交互的过程。使用promptic,你可以轻松创建提示,处理输入参数,并从LLMs接收结构化输出,仅需几行代码。
与文档进行自然语言对话的Python应用
Chat With Your Docs 是一个Python应用程序,允许用户与多种文档格式(如PDF、网页和YouTube视频)进行对话。用户可以使用自然语言提问,应用程序将基于文档内容提供相关回答。该应用利用语言模型生成准确答案。请注意,应用仅回应与加载的文档相关的问题。
多人协作的数据平台,支持SQL和Python的交互式笔记本。
Briefer是一个开源的数据平台,它允许用户运行SQL和Python代码,并将笔记本转化为仪表板和数据应用。它支持连接多种数据源,如Postgres、BigQuery、Redshift等,并且可以利用查询结果直接在Python代码块中使用。此外,它还提供了预安装的库和内置AI助手来帮助用户更快速地编写代码。Briefer的仪表板和数据应用功能,使得用户可以创建交互式的页面,用于数据探索和决策支持。
利用大型语言模型增量构建知识图谱
iText2KG是一个Python包,旨在利用大型语言模型从文本文档中提取实体和关系,增量构建一致的知识图谱。它具备零样本能力,允许在没有特定训练的情况下跨不同领域进行知识提取。该包包括文档蒸馏、实体提取和关系提取模块,确保实体和关系得到解决和唯一性。它通过Neo4j提供知识图谱的可视化表示,支持交互式探索和分析结构化数据。
轻量级Python库,用于使用大型语言模型进行网站抓取。
Parsera是一个轻量级的Python库,专门设计用于与大型语言模型(LLMs)结合,以简化网站数据抓取的过程。它通过使用最少的令牌来提高速度并降低成本,使得数据抓取变得更加高效和经济。Parsera支持多种聊天模型,并且可以自定义使用不同的模型,如OpenAI或Azure。
高效CPU本地离线LaTeX识别工具
MixTeX是一个创新的多模态LaTeX识别小程序,由团队独立开发,能够在本地离线环境中执行高效的基于CPU的推理。无论是LaTeX公式、表格还是混合文本,MixTeX都能轻松识别,支持中英文处理。得益于强大的技术支持和优化设计,MixTeX无需GPU资源即可高效运行,适合任何Windows电脑,极大地方便了用户体验。
Mac上的简单助手,使用llama-cpp-python。
LLaMA Assistant for Mac是一个基于llama-cpp-python库开发的桌面客户端,旨在通过预定义需求为用户提供帮助。它采用了大量来自其他项目的代码,但用llama-cpp-python替代了ollama部分,以实现更符合Python编程风格的解决方案。
一个简单易用的网页抓取工具。
Scrape It Now! 是一个开源的网页抓取工具,它提供了一整套自动化网页抓取和索引的解决方案。该工具使用Python编写,支持多种功能,包括动态JavaScript内容加载、广告屏蔽、随机用户代理,自动创建AI搜索索引等,以提高抓取效率和数据质量。它适用于需要从网页中提取信息并进行进一步分析或存储的用户。
自动化创建WordPress标准文章的插件
AIEntries是一个WordPress插件,利用Google的GEMINI人工智能和stability.AI,根据WordPress管理视图中的可配置参数自动化创建标准文章。它结合了多个免费API来确保内容质量,包括获取真实文章的News API、基于真实文章生成原创内容的Google Gemini API,以及根据AI生成文章标题生成文章特色图片的Stability AI。
开源自主软件开发系统
SuperCoder 2.0是一个开源的自主软件开发系统,利用大型语言模型(LLMs)和大型动作模型(LAMs)针对Python代码生成进行微调,以实现更高精度的一次性或少次编程。它结合特定于开发框架的软件护栏,如Flask和Django,与SuperAGI的通用智能开发代理一起,提供复杂的现实世界软件系统。SuperCoder 2.0还确保了您的知识产权和代码免受AI相关的滥用,并与现有的开发栈如Jira、Github或Gitlab、Jenkins、CSPs以及QA解决方案如BrowserStack/Selenium Clouds深度集成,确保无缝的软件开发体验。
自主软件开发系统,提高编码效率。
SuperCoder是一个开源的自主软件开发系统,利用先进的AI工具和代理来简化和自动化编码、测试和部署任务,提高效率和可靠性。它支持多种编程语言和框架,以满足不同的开发需求。
AI代理工具集,赋能复杂任务处理。
Composio是一个为AI代理提供高质量工具和集成的平台,它简化了代理的认证、准确性和可靠性问题,使得开发者能够通过一行代码集成多种工具和框架。它支持100多种工具,覆盖了GitHub、Notion、Linear等90多个平台,提供了包括软件操作、操作系统交互、浏览器功能、搜索、软件开发环境(SWE)以及即席代理数据(RAG)等多种功能。Composio还支持六种不同的认证协议,能够显著提高代理调用工具的准确性。此外,Composio可以作为后端服务嵌入到应用程序中,为所有用户和代理管理认证和集成,保持一致的体验。
AI驱动的数据分析工具
Datalore是一个集成了Anthropic的Claude API和多种数据分析库的AI驱动的数据分析工具。它提供了一个交互式界面,使用户能够使用自然语言命令执行数据分析任务。
Python中创建精美表格的库
Great Tables是一个Python库,用于创建美观且功能丰富的表格。它支持Pandas或Polars DataFrame作为数据源,提供了多种格式化选项和自定义功能,非常适合数据分析和报告生成。该库由Rich Iannone和Michael Chow主要维护,采用MIT许可证,强调简洁而强大的设计哲学。
自动翻译漫画的桌面应用
Comic Translate 是一个桌面应用程序,旨在自动翻译各种格式的漫画,包括BD、Manga、Manhwa、Fumetti等,支持多种语言。它利用了GPT-4的强大翻译能力,特别适用于翻译那些其他翻译器难以准确翻译的语言对,如韩语、日语到英语的翻译。该应用支持多种文件格式,如图像、PDF、Epub、cbr、cbz等,为用户提供了一种便捷的方式来享受不同语言的漫画内容。
一站式数据解析平台,优化数据与通用人工智能框架的兼容性。
OmniParse是一个数据解析平台,能够将各种非结构化数据转换为结构化、可操作的数据,特别适用于通用人工智能(GenAI)应用。它支持文档、表格、图片、视频、音频文件和网页等数据类型,通过提供清洁、结构化的数据,为人工智能应用如RAG、微调等做好准备。
RAG-based LLM agents的Elo排名工具
RAGElo是一个工具集,使用Elo评分系统帮助选择最佳的基于检索增强生成(RAG)的大型语言模型(LLM)代理。随着生成性LLM在生产中的原型设计和整合变得更加容易,评估仍然是解决方案中最具有挑战性的部分。RAGElo通过比较不同RAG管道和提示对多个问题的答案,计算不同设置的排名,提供了一个良好的概览,了解哪些设置有效,哪些无效。
本地语音聊天机器人,保护隐私,无需联网。
june是一个结合了Ollama、Hugging Face Transformers和Coqui TTS Toolkit的本地语音聊天机器人。它提供了一种灵活、注重隐私的解决方案,可以在本地机器上进行语音辅助交互,确保没有数据被发送到外部服务器。产品的主要优点包括无需联网即可使用、保护用户隐私、支持多种交互模式等。
开源的网页爬虫,支持AI技术目录更新和网站摘要。
Tap4 AI Crawler 是由 tap4.ai 开源的网页爬虫,能够将网站转换为包含LLM的摘要信息。它具备强大的网页抓取、爬取和数据提取能力,以及网页截图功能。基于Python构建,轻量级,易于维护,适合对AI工具目录感兴趣的个人开发者以及对Python感兴趣的学习者。
一个用于Lumina模型的Python包装器
ComfyUI-LuminaWrapper是一个开源的Python包装器,用于简化Lumina模型的加载和使用。它支持自定义节点和工作流,使得开发者能够更便捷地集成Lumina模型到自己的项目中。该插件主要面向希望在Python环境中使用Lumina模型进行深度学习或机器学习的开发者。
一个交互式绘图应用,用于数学方程的绘制和计算。
AI Math Notes 是一个开源的交互式绘图应用程序,允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型(LLM)计算并显示结果。该应用程序使用Python开发,利用Tkinter库创建图形用户界面,使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会(WWDC)上展示的'Math Notes'。
用于微调Meta Llama模型的库和示例脚本集合
llama-recipes是Meta Llama模型的配套仓库,旨在提供一个可扩展的库,用于微调Meta Llama模型,并提供一些示例脚本和笔记本,以便快速开始使用模型在各种用例中,包括领域适应的微调和构建基于LLM的应用程序。
使用Python和AI扩展业务流程,实现全面透明化和高效自动化。
Abstra是一个基于Python和AI的业务流程自动化平台,它允许用户通过拖放组件和绑定Python代码来创建功能强大的工作流。该平台提供了智能表单、定时任务和事件触发器等多种自动化工具,支持一键部署到云端,并且可以与Git集成。Abstra强调透明度和可审计性,提供SSO或SAML身份验证和细粒度的访问控制,适合需要高度定制化自动化解决方案的企业团队。
一个实验性的UI,用于将文本转换为知识图谱。
prettygraph是一个基于Python的Web应用程序,由@yoheinakajima开发,展示了一种新的UI模式,用于将文本输入动态地转换为知识图谱。该项目是一个快速原型,旨在提供一种简单的UI想法,通过实时更新UI中的文本高亮来生成知识图谱。
自动生成Python、Java、TypeScript、JavaScript、Kotlin的人工智能文档/注释,支持GitHub、GitLab、Bitbucket。
Snorkell.ai是一个自动化生成文档的工具,它可以在每次合并拉取请求时自动生成和更新GitHub项目的文档,确保文档始终与代码库保持一致。它支持Python、Java、TypeScript、JavaScript和Kotlin等编程语言,生成人类可读且易理解的文档。
© 2024 AIbase 备案号:闽ICP备08105208号-14