需求人群:
"适用于希望自动化日常任务、节省时间并专注于更有意义事务的用户,以及需要自动化特定登录任务的个人用户。"
使用场景示例:
使用LaVague自动化在线支付账单的过程
通过LaVague在网站上填写表格
利用LaVague从特定网站提取数据
产品特色:
理解自然语言指令以执行浏览器交互
与Selenium无缝集成以自动化网页浏览器
使用开源项目和模型确保代理的透明度
支持本地模型以提供隐私保证和控制
使用先进的AI技术执行相关HTML片段的RAG以提取最相关的信息
浏览量:419
最新流量情况
月访问量
4.91m
平均访问时长
00:06:18
每次访问页数
5.57
跳出率
37.92%
流量来源
直接访问
51.73%
自然搜索
32.88%
邮件
0.04%
外链引荐
13.01%
社交媒体
2.27%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
13.81%
德国
3.69%
印度
9.16%
俄罗斯
4.47%
美国
18.04%
LaVague是一个大型动作模型框架,用于自动化浏览器交互
LaVague旨在通过将自然语言指令转换为无缝的浏览器交互来重新定义互联网浏览体验。它利用自然语言处理和Selenium集成,使用户或其他AI能够轻松表达网络工作流程并在浏览器上执行它们。
百川智能开发的专为医疗场景优化的开源大语言模型,具备卓越的通用能力和医疗领域性能。
Baichuan-M1-14B 是由百川智能开发的开源大语言模型,专为医疗场景优化。它基于20万亿token的高质量医疗与通用数据训练,覆盖20多个医疗科室,具备强大的上下文理解和长序列任务表现能力。该模型在医疗领域表现出色,同时在通用任务中也达到了同尺寸模型的效果。其创新的模型结构和训练方法使其在医疗推理、病症判断等复杂任务中表现出色,为医疗领域的人工智能应用提供了强大的支持。
FilmAgent是一个基于LLM的多智能体协作框架,用于虚拟3D空间中的端到端电影自动化制作。
FilmAgent是一种创新的电影制作技术,通过模拟导演、编剧、演员和摄影师等关键角色,利用多智能体协作实现虚拟3D空间中的电影自动化制作。该技术的主要优点在于能够减少人工干预,提高制作效率,同时降低错误率。FilmAgent在电影制作领域的应用,为创作者提供了一个高效、低成本的解决方案,尤其适合资源有限的小型制作团队。虽然目前没有明确的价格信息,但其开源的特性使其具有广泛的适用性和推广价值。
提供全球基础金融数据,快速整合到模型中,助力现代金融分析师高效工作。
Finbar是一个专注于提供全球基础金融数据的平台。它通过先进的OCR、机器学习和自然语言处理技术,能够快速从海量金融文档中提取结构化数据,并在数据发布后几秒内提供给用户。其主要优点是数据更新速度快、自动化程度高,能够显著减少人工处理数据的时间和成本。该产品主要面向金融机构和分析师,帮助他们快速获取和分析数据,提升工作效率。目前尚不清楚其具体价格和定位,但已获得多家顶级对冲基金的使用。
基于UI-TARS(视觉语言模型)的GUI代理应用,可使用自然语言控制电脑。
UI-TARS-desktop 是由字节跳动开发的一款桌面客户端应用,它基于 UI-TARS 视觉语言模型,允许用户通过自然语言与计算机进行交互,完成各种任务。该产品利用先进的视觉语言模型技术,能够理解用户的自然语言指令,并通过屏幕截图和视觉识别功能实现精准的鼠标和键盘操作。它支持跨平台使用(Windows 和 macOS),并提供实时反馈和状态显示,极大地提高了用户的工作效率和交互体验。目前该产品在 GitHub 上开源,用户可以免费下载和使用。
DeepSeek-R1-Distill-Qwen-1.5B 是一款高效推理的开源语言模型,适用于多种自然语言处理任务。
DeepSeek-R1-Distill-Qwen-1.5B 是由 DeepSeek 团队开发的开源语言模型,基于 Qwen2.5 系列进行蒸馏优化。该模型通过大规模强化学习和数据蒸馏技术,显著提升了推理能力和性能,同时保持了较小的模型体积。它在多项基准测试中表现出色,尤其在数学、代码生成和推理任务中具有显著优势。该模型支持商业使用,并允许用户进行修改和衍生作品开发,适合研究机构和企业用于开发高性能的自然语言处理应用。
AI语音代理测试与可观测性平台
fixa是一个专注于AI语音代理测试与可观测性的平台,旨在帮助开发者和企业快速发现并修复语音代理中的问题。通过自动化测试、生产监控和错误检测等功能,确保语音代理的稳定性和可靠性。该平台由Y Combinator资助,提供简单透明的定价策略,适合不同规模的企业使用。
一款高效率的2.4亿参数轻量级语言模型
YuLan-Mini是由中国人民大学AI Box团队开发的一款轻量级语言模型,具有2.4亿参数,尽管仅使用1.08T的预训练数据,但其性能可与使用更多数据训练的行业领先模型相媲美。该模型特别擅长数学和代码领域,为了促进可复现性,团队将开源相关的预训练资源。
一款具有671B参数的Mixture-of-Experts语言模型。
DeepSeek-V3是一个强大的Mixture-of-Experts (MoE) 语言模型,拥有671B的总参数量,每次激活37B参数。它采用了Multi-head Latent Attention (MLA) 和 DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了充分的验证。此外,DeepSeek-V3首次采用了无辅助损失的负载均衡策略,并设置了多令牌预测训练目标,以实现更强大的性能。DeepSeek-V3在14.8万亿高质量令牌上进行了预训练,随后进行了监督式微调和强化学习阶段,以充分利用其能力。综合评估显示,DeepSeek-V3超越了其他开源模型,并达到了与领先的闭源模型相当的性能。尽管性能出色,DeepSeek-V3的完整训练仅需要2.788M H800 GPU小时,并且训练过程非常稳定。
开源的端到端视觉语言模型(VLM)基础的GUI代理
CogAgent是一个基于视觉语言模型(VLM)的GUI代理,它通过屏幕截图和自然语言实现双语(中文和英文)交云。CogAgent在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面取得了显著进步。该模型已经在ZhipuAI的GLM-PC产品中得到应用,旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。
最强大的RWKV模型变体,打破多项英语基准测试。
Q-RWKV-6 32B Instruct Preview是由Recursal AI开发的最新RWKV模型变体,它在多项英语基准测试中超越了之前所有的RWKV、State Space和Liquid AI模型。这个模型通过将Qwen 32B Instruct模型的权重转换到定制的QRWKV6架构中,成功地用RWKV-V6注意力头替换了现有的Transformer注意力头,这一过程是由Recursal AI团队与RWKV和EleutherAI开源社区联合开发的。该模型的主要优点包括在大规模计算成本上的显著降低,以及对环境友好的开源AI技术。
一键生成数据的直观反射图
diagen是一个利用人工智能技术,通过单一命令生成美丽、直观图表的工具。它支持多种图表类型,并能通过视觉反馈和批评自动优化图表。diagen的主要优点包括易用性、支持多种AI模型、自动图表细化以及支持多种图表类型。它背景于数据可视化和人工智能领域,旨在简化图表生成过程,提高效率。diagen是开源的,因此对于个人和企业来说,使用成本较低,适合需要快速生成高质量图表的开发者和数据分析师。
AI编程助手,助力工程团队提升效率。
Devin是一个AI编程助手,旨在帮助工程团队通过自动化代码迁移、重构等任务来提升效率。它能够自主学习、响应自然语言请求,并与用户实时协作。Devin的技术背景基于Nubank的大规模代码迁移项目,该项目涉及将一个8年历史的、数百万行代码的单体ETL迁移到子模块中。Devin通过自动化这些重复性工作,为Nubank带来了12倍的工程时间效率提升和20倍的成本节省。
高性能英文文本生成模型
OLMo-2-1124-7B-SFT是由艾伦人工智能研究所(AI2)发布的一个英文文本生成模型,它是OLMo 2 7B模型的监督微调版本,专门针对Tülu 3数据集进行了优化。Tülu 3数据集旨在提供多样化任务的顶尖性能,包括聊天、数学问题解答、GSM8K、IFEval等。该模型的主要优点包括强大的文本生成能力、多样性任务处理能力以及开源的代码和训练细节,使其成为研究和教育领域的有力工具。
开源AIOps平台,管理大规模告警/事件的瑞士军刀
Keep是一个开源的AIOps平台,专为复杂环境中处理告警的团队设计。它通过AI技术增强IT运维能力,提供告警丰富、工作流、单视图界面和90多个集成选项。Keep平台支持从SRE、运维人员到工程师、初创企业和全球企业,是可靠团队的选择。产品背景信息显示,Keep在2024年宣布了270万美元的种子轮融资,并在GitHub上拥有7.8k的关注者,体现了其在开源社区的影响力和受欢迎程度。Keep提供免费试用和不同定价方案,定位于大型企业和需要高效管理告警的团队。
7B参数的大型语言模型,提升自然语言处理能力
OLMo 2 7B是由Allen Institute for AI (Ai2)开发的一款7B参数的大型语言模型,它在多个自然语言处理任务上展现出色的表现。该模型通过在大规模数据集上的训练,能够理解和生成自然语言,支持多种语言模型相关的科研和应用。OLMo 2 7B的主要优点包括其大规模的参数量,使得模型能够捕捉到更加细微的语言特征,以及其开源的特性,促进了学术界和工业界的进一步研究和应用。
科学文献综合检索增强型语言模型
Ai2 OpenScholar是由艾伦人工智能研究所与华盛顿大学合作开发的检索增强型语言模型,旨在帮助科学家通过检索相关文献并基于这些文献生成回答来有效导航和综合科学文献。该模型在多个科学领域中表现出色,特别是在引用准确性和事实性方面。它代表了人工智能在科学研究中应用的重要进步,能够加速科学发现并提高研究效率。
先进的指令遵循模型,提供全面后训练技术指南。
Llama-3.1-Tulu-3-8B-RM是Tülu3模型家族的一部分,该家族以开源数据、代码和配方为特色,旨在为现代后训练技术提供全面指南。该模型专为聊天以外的多样化任务(如MATH、GSM8K和IFEval)提供最先进的性能。
领先的指令遵循模型家族,提供开源数据、代码和指南。
Llama-3.1-Tulu-3-70B-SFT是Tülu3模型家族的一部分,专为现代后训练技术提供全面指南而设计。该模型不仅在聊天任务上表现出色,还在MATH、GSM8K和IFEval等多种任务上实现了最先进的性能。它是基于公开可用的、合成的和人类创建的数据集训练的,主要使用英语,并遵循Llama 3.1社区许可协议。
AI代理在网页上执行任务的API
Nfig是一个为AI代理设计的API,允许它们在网页上浏览、点击和执行任务,使用自然语言指令。它通过提供易于集成的API,增强AI工作流程,释放强大的代理能力。Nfig支持自动化登录、虚拟化DOM等复杂操作,使得AI代理能够执行以前难以触及的任务。产品背景强调了其开发者友好的设计、安全性和自我修复能力,以及对数据隐私的承诺。Nfig的价格策略是按使用付费,没有月度承诺,用户只需为实际使用的服务付费。
先进的文本生成模型,支持多样化任务
Llama-3.1-Tulu-3-8B-DPO是Tülu3模型家族中的一员,专注于指令遵循,提供完全开源的数据、代码和配方,旨在作为现代后训练技术的全面指南。该模型专为聊天以外的多样化任务设计,如MATH、GSM8K和IFEval,以达到最先进的性能。模型主要优点包括开源数据和代码、支持多种任务、以及优秀的性能。产品背景信息显示,该模型由Allen AI研究所开发,遵循Llama 3.1社区许可协议,适用于研究和教育用途。
使用Anthropic API进行Playwright测试的AI工具
playwright-ai是一个集成了Anthropic的AI能力的Playwright测试插件。它允许开发者使用自然语言描述测试步骤,通过AI来执行复杂的测试任务,提高了测试的效率和准确性。该技术的主要优点包括简化测试流程、减少重复代码和提高测试覆盖率。产品背景是基于Playwright测试框架和Anthropic的AI技术,适用于需要进行自动化测试的软件开发项目。目前该项目是开源的,因此对于开发者来说是免费的。
先进的指令遵循模型,提供开源数据和代码。
Llama-3.1-Tulu-3-8B是Tülu3指令遵循模型家族的一部分,专为多样化任务设计,包括聊天、数学问题解答、GSM8K和IFEval等。这个模型家族以其卓越的性能和完全开源的数据、代码以及现代后训练技术的全面指南而著称。模型主要使用英文,并且是基于allenai/Llama-3.1-Tulu-3-8B-DPO模型微调而来。
开源AI开发者助手,提升开发效率。
OpenHands是由All Hands AI开发的开源AI软件工程师,旨在帮助开发者处理积压的工作,让他们能够专注于解决难题、创造性挑战和过度工程化他们的配置文件。该产品在SWE-bench验证问题集中解决了超过一半的问题,是首个得分超过50%的AI工程师。此外,来自十几个学术机构的顶级代码生成研究人员每天都在帮助改进它。OpenHands在GitHub上以MIT许可证开源,拥有35k星标和190+贡献者。它与AI安全专家如Invariant Labs合作,以平衡创新与安全。
开源的网页自动化库,支持任何大型语言模型(LLM)
browser-use是一个开源的网页自动化库,允许大型语言模型(LLM)与网站进行交互,通过简单的接口实现复杂的网页操作。该技术的主要优点包括对多种语言模型的通用支持、交互元素自动检测、多标签页管理、XPath提取、视觉模型支持等。它解决了传统网页自动化中的一些痛点,如动态内容处理、长任务解决等。browser-use以其灵活性和易用性,为开发者提供了一个强大的工具,以构建更加智能和自动化的网页交互体验。
代码审查助手,确保代码无缺陷。
Panto AI 是一个编程辅助工具,通过代码审查来预防缺陷代码进入生产环境。它通过全天候运作,暴露代码中的漏洞并建议修复措施,确保只有无缺陷的代码被推送到生产环境。Panto AI 不仅检查错误,还理解代码背后的意图,并与知识库无缝集成,提供更智能的洞察。产品背景信息显示,Panto AI 已经开源其代码,并在GitHub上获得社区支持。
业界领先的开源大型混合专家模型
Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。
© 2025 AIbase 备案号:闽ICP备08105208号-14