需求人群:
"Crawlee 适合需要构建数据爬取和网页自动化工具的开发者。无论是需要从静态 HTML 页面还是依赖客户端 JavaScript 生成内容的动态网站中提取数据,Crawlee 都能够提供强大的支持。它的易用性和灵活性使其成为数据科学家、机器学习工程师和 web 开发者的理想选择。"
使用场景示例:
使用 BeautifulSoupCrawler 高效提取 HTML 内容数据。
利用 PlaywrightCrawler 处理 JavaScript 重型网站的数据抓取。
通过 Crawlee CLI 快速启动和配置新的爬虫项目。
产品特色:
统一的 HTTP 和无头浏览器爬取接口
基于系统资源的自动并行爬取
Python 类型提示,增强开发体验
自动错误重试和防屏蔽功能
集成代理轮换和会话管理
可配置的请求路由和持久化 URL 队列
支持多种数据和文件存储方式
健壮的错误处理机制
使用教程:
安装 Crawlee: pip install crawlee
根据需要安装额外的依赖,例如 beautifulsoup 或 playwright
使用 Crawlee CLI 创建新的爬虫项目: pipx run crawlee create my-crawler
选择一个模板并根据项目需求进行配置
编写爬虫逻辑,包括数据提取和链接抓取
运行爬虫并观察结果
浏览量:24
最新流量情况
月访问量
5.16m
平均访问时长
00:06:42
每次访问页数
5.81
跳出率
37.20%
流量来源
直接访问
52.27%
自然搜索
32.92%
邮件
0.05%
外链引荐
12.52%
社交媒体
2.15%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
11.99%
德国
3.63%
印度
9.20%
俄罗斯
5.25%
美国
19.02%
Python 网络爬虫和浏览器自动化库
Crawlee 是一个用于构建可靠爬虫的 Python 网络爬虫和浏览器自动化库,提取数据用于AI、LLMs、RAG或GPTs。它提供了统一的接口来处理 HTTP 和无头浏览器爬取任务,支持自动并行爬取,基于系统资源进行调整。Crawlee 用 Python 编写,包含类型提示,增强了开发体验并减少了错误。它具备自动重试、集成代理轮换和会话管理、可配置的请求路由、持久化 URL 队列、可插拔的存储选项等功能。相较于 Scrapy,Crawlee 提供了对无头浏览器爬取的原生支持,拥有简洁优雅的接口,并且完全基于标准的异步 IO。
下一代Python笔记本
marimo是一个开源的Python反应式笔记本,它具有可复现性、对git友好、可以作为脚本执行,并且可以作为应用程序分享。它通过自动运行受影响的单元格来响应单元格的更改,消除了管理笔记本状态的繁琐工作。marimo的UI元素如数据框架GUI和图表,使得数据处理变得快速、未来感和直观。marimo笔记本以.py文件存储,可以与git版本控制一起使用,可以作为Python脚本运行,也可以导入符号到其他笔记本或Python文件中,并使用你喜欢的工具进行lint或格式化。所有这些都在现代的 AI 支持的编辑器中进行。
基于GIMM-VFI的ComfyUI帧插值工具
ComfyUI-GIMM-VFI是一个基于GIMM-VFI算法的帧插值工具,使用户能够在图像和视频处理中实现高质量的帧插值效果。该技术通过在连续帧之间插入新的帧来提高视频的帧率,从而使得动作看起来更加流畅。这对于视频游戏、电影后期制作和其他需要高帧率视频的应用场景尤为重要。产品背景信息显示,它是基于Python开发的,并且依赖于CuPy库,特别适用于需要进行高性能计算的场景。
开源的网页自动化库,支持任何大型语言模型(LLM)
browser-use是一个开源的网页自动化库,允许大型语言模型(LLM)与网站进行交互,通过简单的接口实现复杂的网页操作。该技术的主要优点包括对多种语言模型的通用支持、交互元素自动检测、多标签页管理、XPath提取、视觉模型支持等。它解决了传统网页自动化中的一些痛点,如动态内容处理、长任务解决等。browser-use以其灵活性和易用性,为开发者提供了一个强大的工具,以构建更加智能和自动化的网页交互体验。
利用Claude 3.5 Sonnet Vision API进行图像中物体检测和可视化的强大Python工具
Claude Vision Object Detection是一个基于Python的工具,它利用Claude 3.5 Sonnet Vision API来检测图像中的物体并进行可视化。该工具能够自动在检测到的物体周围绘制边界框,对它们进行标记,并显示置信度分数。它支持处理单张图片或整个目录中的图片,并且具有高精度的置信度分数,为每个检测到的物体使用鲜艳且不同的颜色。此外,它还能保存带有检测结果的注释图片。
AI驱动的数据可视化工具
Data Formulator 是微软研究团队开发的一款AI驱动的数据可视化工具,它通过结合用户界面交互和自然语言输入,帮助用户快速创建丰富的数据可视化图表。该工具可以自动处理数据转换,使用户能够专注于图表设计。Data Formulator 支持通过Python安装并本地运行,也可以在GitHub Codespaces中快速启动。它代表了数据分析和可视化领域的技术进步,通过AI技术提高了数据可视化的效率和易用性。
Mochi视频生成器的ComfyUI包装节点
ComfyUI-MochiWrapper是一个用于Mochi视频生成器的包装节点,它允许用户通过ComfyUI界面与Mochi模型进行交互。这个项目主要优点是能够利用Mochi模型生成视频内容,并且通过ComfyUI简化了操作流程。它是基于Python开发的,并且完全开源,允许开发者自由地使用和修改。目前该项目还处于积极开发中,已经有一些基本功能,但还没有正式发布版本。
批量为图片文件生成描述性标题的工具
joy-caption-batch是一个利用Joytag Caption工具批量为图片文件生成描述性标题的编程模型。该工具目前处于Alpha阶段,它通过分析图片内容,使用人工智能技术生成相应的文字描述,帮助用户快速理解图片内容。该工具的主要优点包括批量处理能力、支持自定义图片目录以及对低显存模式的支持,使其能够在显存较低的设备上运行。此外,该工具还提供了详细的安装和使用说明,方便用户快速上手。
快速构建健壮的AI代理项目
AgentStack是一个用于快速创建AI代理项目的命令行工具。它基于Python 3.10+,支持多种流行的代理框架,如CrewAI、Autogen和LiteLLM,并集成了多种工具,以简化开发过程。AgentStack的设计理念是简化从零开始构建AI代理的过程,无需复杂的配置,即可快速启动和运行代理项目。它还提供了一个交互式测试运行器、实时开发服务器以及生产环境的构建脚本。AgentStack是开源的,遵循MIT许可协议,适合希望快速进入AI代理开发的开发者。
多智能体系统构建、编排和部署框架
Swarm是由OpenAI Solutions团队管理的实验性框架,旨在构建、编排和部署多智能体系统。它通过定义智能体(Agent)和交接(handoffs)的抽象概念,实现了智能体之间的协调和执行。Swarm框架强调轻量级、高可控性和易于测试,适用于需要大量独立功能和指令的场景,允许开发者拥有完全的透明度和对上下文、步骤和工具调用的细粒度控制。Swarm框架目前处于实验阶段,不推荐在生产环境中使用。
一个简单而强大的Python库,用于使用大型语言模型(LLMs)。
promptic是一个轻量级、基于装饰器的Python库,它通过litellm简化了与大型语言模型(LLMs)交互的过程。使用promptic,你可以轻松创建提示,处理输入参数,并从LLMs接收结构化输出,仅需几行代码。
与文档进行自然语言对话的Python应用
Chat With Your Docs 是一个Python应用程序,允许用户与多种文档格式(如PDF、网页和YouTube视频)进行对话。用户可以使用自然语言提问,应用程序将基于文档内容提供相关回答。该应用利用语言模型生成准确答案。请注意,应用仅回应与加载的文档相关的问题。
多人协作的数据平台,支持SQL和Python的交互式笔记本。
Briefer是一个开源的数据平台,它允许用户运行SQL和Python代码,并将笔记本转化为仪表板和数据应用。它支持连接多种数据源,如Postgres、BigQuery、Redshift等,并且可以利用查询结果直接在Python代码块中使用。此外,它还提供了预安装的库和内置AI助手来帮助用户更快速地编写代码。Briefer的仪表板和数据应用功能,使得用户可以创建交互式的页面,用于数据探索和决策支持。
利用大型语言模型增量构建知识图谱
iText2KG是一个Python包,旨在利用大型语言模型从文本文档中提取实体和关系,增量构建一致的知识图谱。它具备零样本能力,允许在没有特定训练的情况下跨不同领域进行知识提取。该包包括文档蒸馏、实体提取和关系提取模块,确保实体和关系得到解决和唯一性。它通过Neo4j提供知识图谱的可视化表示,支持交互式探索和分析结构化数据。
轻量级Python库,用于使用大型语言模型进行网站抓取。
Parsera是一个轻量级的Python库,专门设计用于与大型语言模型(LLMs)结合,以简化网站数据抓取的过程。它通过使用最少的令牌来提高速度并降低成本,使得数据抓取变得更加高效和经济。Parsera支持多种聊天模型,并且可以自定义使用不同的模型,如OpenAI或Azure。
高效CPU本地离线LaTeX识别工具
MixTeX是一个创新的多模态LaTeX识别小程序,由团队独立开发,能够在本地离线环境中执行高效的基于CPU的推理。无论是LaTeX公式、表格还是混合文本,MixTeX都能轻松识别,支持中英文处理。得益于强大的技术支持和优化设计,MixTeX无需GPU资源即可高效运行,适合任何Windows电脑,极大地方便了用户体验。
Mac上的简单助手,使用llama-cpp-python。
LLaMA Assistant for Mac是一个基于llama-cpp-python库开发的桌面客户端,旨在通过预定义需求为用户提供帮助。它采用了大量来自其他项目的代码,但用llama-cpp-python替代了ollama部分,以实现更符合Python编程风格的解决方案。
一个简单易用的网页抓取工具。
Scrape It Now! 是一个开源的网页抓取工具,它提供了一整套自动化网页抓取和索引的解决方案。该工具使用Python编写,支持多种功能,包括动态JavaScript内容加载、广告屏蔽、随机用户代理,自动创建AI搜索索引等,以提高抓取效率和数据质量。它适用于需要从网页中提取信息并进行进一步分析或存储的用户。
自动化创建WordPress标准文章的插件
AIEntries是一个WordPress插件,利用Google的GEMINI人工智能和stability.AI,根据WordPress管理视图中的可配置参数自动化创建标准文章。它结合了多个免费API来确保内容质量,包括获取真实文章的News API、基于真实文章生成原创内容的Google Gemini API,以及根据AI生成文章标题生成文章特色图片的Stability AI。
开源自主软件开发系统
SuperCoder 2.0是一个开源的自主软件开发系统,利用大型语言模型(LLMs)和大型动作模型(LAMs)针对Python代码生成进行微调,以实现更高精度的一次性或少次编程。它结合特定于开发框架的软件护栏,如Flask和Django,与SuperAGI的通用智能开发代理一起,提供复杂的现实世界软件系统。SuperCoder 2.0还确保了您的知识产权和代码免受AI相关的滥用,并与现有的开发栈如Jira、Github或Gitlab、Jenkins、CSPs以及QA解决方案如BrowserStack/Selenium Clouds深度集成,确保无缝的软件开发体验。
自主软件开发系统,提高编码效率。
SuperCoder是一个开源的自主软件开发系统,利用先进的AI工具和代理来简化和自动化编码、测试和部署任务,提高效率和可靠性。它支持多种编程语言和框架,以满足不同的开发需求。
AI代理工具集,赋能复杂任务处理。
Composio是一个为AI代理提供高质量工具和集成的平台,它简化了代理的认证、准确性和可靠性问题,使得开发者能够通过一行代码集成多种工具和框架。它支持100多种工具,覆盖了GitHub、Notion、Linear等90多个平台,提供了包括软件操作、操作系统交互、浏览器功能、搜索、软件开发环境(SWE)以及即席代理数据(RAG)等多种功能。Composio还支持六种不同的认证协议,能够显著提高代理调用工具的准确性。此外,Composio可以作为后端服务嵌入到应用程序中,为所有用户和代理管理认证和集成,保持一致的体验。
AI驱动的数据分析工具
Datalore是一个集成了Anthropic的Claude API和多种数据分析库的AI驱动的数据分析工具。它提供了一个交互式界面,使用户能够使用自然语言命令执行数据分析任务。
Python中创建精美表格的库
Great Tables是一个Python库,用于创建美观且功能丰富的表格。它支持Pandas或Polars DataFrame作为数据源,提供了多种格式化选项和自定义功能,非常适合数据分析和报告生成。该库由Rich Iannone和Michael Chow主要维护,采用MIT许可证,强调简洁而强大的设计哲学。
自动翻译漫画的桌面应用
Comic Translate 是一个桌面应用程序,旨在自动翻译各种格式的漫画,包括BD、Manga、Manhwa、Fumetti等,支持多种语言。它利用了GPT-4的强大翻译能力,特别适用于翻译那些其他翻译器难以准确翻译的语言对,如韩语、日语到英语的翻译。该应用支持多种文件格式,如图像、PDF、Epub、cbr、cbz等,为用户提供了一种便捷的方式来享受不同语言的漫画内容。
一站式数据解析平台,优化数据与通用人工智能框架的兼容性。
OmniParse是一个数据解析平台,能够将各种非结构化数据转换为结构化、可操作的数据,特别适用于通用人工智能(GenAI)应用。它支持文档、表格、图片、视频、音频文件和网页等数据类型,通过提供清洁、结构化的数据,为人工智能应用如RAG、微调等做好准备。
RAG-based LLM agents的Elo排名工具
RAGElo是一个工具集,使用Elo评分系统帮助选择最佳的基于检索增强生成(RAG)的大型语言模型(LLM)代理。随着生成性LLM在生产中的原型设计和整合变得更加容易,评估仍然是解决方案中最具有挑战性的部分。RAGElo通过比较不同RAG管道和提示对多个问题的答案,计算不同设置的排名,提供了一个良好的概览,了解哪些设置有效,哪些无效。
本地语音聊天机器人,保护隐私,无需联网。
june是一个结合了Ollama、Hugging Face Transformers和Coqui TTS Toolkit的本地语音聊天机器人。它提供了一种灵活、注重隐私的解决方案,可以在本地机器上进行语音辅助交互,确保没有数据被发送到外部服务器。产品的主要优点包括无需联网即可使用、保护用户隐私、支持多种交互模式等。
© 2024 AIbase 备案号:闽ICP备08105208号-14