需求人群:
"Mobile-Agent可用于自动化移动设备操作,评估移动设备性能,提高移动应用程序的适应性。"
使用场景示例:
自动化移动设备操作:Mobile-Agent可用于自动化执行移动应用程序中的任务,提高效率。
移动设备性能评估:利用Mobile-Agent进行移动设备操作评估,以提高性能。
提高移动应用程序适应性:Mobile-Agent可帮助移动应用程序在不同环境中实现更大的适应性。
产品特色:
利用多模大语言模型技术
利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文字元素
自主规划和分解复杂操作任务
通过逐步操作来导航移动应用程序
具有更大的适应性,消除了对特定系统定制的必要性
引入了Mobile-Eval,用于评估移动设备操作的基准
浏览量:887
自主多模移动设备代理
Mobile-Agent是一款自主多模移动设备代理,利用多模大语言模型(MLLM)技术,首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文字元素。基于感知的视觉环境,它自主规划和分解复杂操作任务,并通过逐步操作来导航移动应用程序。与之前依赖于应用程序的XML文件或移动系统元数据的解决方案不同,Mobile-Agent以视觉为中心的方式在各种移动操作环境中具有更大的适应性,从而消除了对特定系统定制的必要性。为了评估Mobile-Agent的性能,我们引入了Mobile-Eval,这是一个用于评估移动设备操作的基准。基于Mobile-Eval,我们对Mobile-Agent进行了全面评估。实验结果表明,Mobile-Agent实现了显着的准确性和完成率。即使在具有挑战性的指令下,例如多应用程序操作,Mobile-Agent仍然可以完成要求。
使用自主强化学习训练野外设备控制代理
DigiRL是一个创新的在线强化学习算法,用于训练能够在野外环境中控制设备的智能代理。它通过自主价值评估模型(VLM)来解决开放式的、现实世界中的Android任务。DigiRL的主要优点包括能够利用现有的非最优离线数据集,并通过离线到在线的强化学习来鼓励代理从自身的尝试和错误中学习。该模型使用指令级价值函数来隐式构建自动课程,优先考虑对代理最有价值的任务,并通过步进级价值函数挑选出在轨迹中对目标有贡献的有利动作。
优化的小型语言模型,适用于移动设备
MobileLLM是一种针对移动设备优化的小型语言模型,专注于设计少于十亿参数的高质量LLMs,以适应移动部署的实用性。与传统观念不同,该研究强调了模型架构在小型LLMs中的重要性。通过深度和薄型架构,结合嵌入共享和分组查询注意力机制,MobileLLM在准确性上取得了显著提升,并提出了一种不增加模型大小且延迟开销小的块级权重共享方法。此外,MobileLLM模型家族在聊天基准测试中显示出与之前小型模型相比的显著改进,并在API调用任务中接近LLaMA-v2 7B的正确性,突出了小型模型在普通设备用例中的能力。
高效、轻量级的量化Llama模型,提升移动设备上的运行速度并减少内存占用。
Llama模型是Meta公司推出的大型语言模型,通过量化技术,使得模型体积更小、运行速度更快,同时保持了模型的质量和安全性。这些模型特别适用于移动设备和边缘部署,能够在资源受限的设备上提供快速的设备内推理,同时减少内存占用。量化Llama模型的开发,标志着在移动AI领域的一个重要进步,使得更多的开发者能够在不需要大量计算资源的情况下,构建和部署高质量的AI应用。
Lora 是一个为移动设备优化的本地语言模型,支持 iOS 和 Android 平台。
Lora 是一款为移动设备优化的本地语言模型,通过其 SDK 可以快速集成到移动应用中。它支持 iOS 和 Android 平台,性能与 GPT-4o-mini 相当,拥有 1.5GB 大小和 24 亿参数,专为实时移动推理进行了优化。Lora 的主要优点包括低能耗、轻量化和快速响应,相比其他模型,它在能耗、体积和速度上都有显著优势。Lora 由 PeekabooLabs 提供,主要面向开发者和企业客户,帮助他们快速将先进的语言模型能力集成到移动应用中,提升用户体验和应用竞争力。
On-device Sora 是一个基于扩散模型的移动设备端文本到视频生成项目。
On-device Sora 是一个开源项目,旨在通过线性比例跳跃(LPL)、时间维度标记合并(TDTM)和动态加载并发推理(CI-DL)等技术,实现在移动设备(如 iPhone 15 Pro)上高效的视频生成。该项目基于 Open-Sora 模型开发,能够根据文本输入生成高质量视频。其主要优点包括高效性、低功耗和对移动设备的优化。该技术适用于需要在移动设备上快速生成视频内容的场景,如短视频创作、广告制作等。项目目前开源,用户可以免费使用。
一个用于智能设备等的多模态原生代理框架。
OmAgent是一个多模态原生代理框架,用于智能设备等。它采用分治算法高效解决复杂任务,能预处理长视频并以类似人类的精度进行问答,还能基于用户请求和可选天气条件提供个性化服装建议等。目前官网未明确显示价格,但从功能来看,主要面向需要高效任务处理和智能交互的用户群体,如开发者、企业等。
Octopus-V2-2B是一款在移动设备上运行的2B LLMs,性能优于GPT-4
Octopus-V2-2B是由斯坦福大学NexaAI开发的开源大型语言模型,具有20亿参数,专门为Android API的功能调用定制。它采用了独特的功能性标记策略,用于训练和推理阶段,使其达到与GPT-4相当的性能水平,并提高了推理速度。Octopus-V2-2B特别适合边缘计算设备,能够在设备上直接运行,支持广泛的应用场景。
一个强大的AI客户端,支持多设备云同步,提升工作和生活效率。
ChatX是一个基于先进AI技术的客户端应用,它通过高速API服务器提供极速体验,支持iPhone、iPad和macOS设备间的云同步。用户可以利用它完成各种AI任务,如文本生成、图片生成等,显著提高工作效率。产品的主要优点包括高速访问、自定义功能、经济的按字数消耗模式以及丰富的高级功能,如AI参数微调、Siri朗读等。ChatX的背景是AI技术的快速发展和用户对于高效、智能工具的需求。目前,产品在Mac App Store上免费提供,但提供App内购买项目。
使用AI生成模因的神器
Genmeme是一个使用AI技术生成模因的平台。它可以根据用户输入的提示快速生成多个模因模板供用户选择。用户也可以从精选的模板库中生成自己的模因。Genmeme使用AI技术生成高质量的模因,让用户省去了艺术和技术技能的要求,帮助用户节省时间并获得无限多样的内容。无论你是教育工作者、市场营销人员还是社交媒体达人,Genmeme都能满足你的创意需求。
一个可以方便使用 Google Gemini Pro 2.0 的移动客户端,支持实时对话和多AI代理。
Gemini Pro Chatbot 是一款基于 Google Gemini Pro AI 模型开发的移动聊天应用。它通过 React Native 和 Expo 构建,支持实时流式响应、代码高亮、消息持久化存储等功能。该应用允许用户通过自定义系统提示词和创建不同个性的 AI 代理来优化聊天体验。其主要优点包括强大的语言理解能力、灵活的定制化选项以及跨平台支持,适合希望高效利用 AI 进行对话和内容创作的用户。
开源自主软件开发系统
SuperCoder 2.0是一个开源的自主软件开发系统,利用大型语言模型(LLMs)和大型动作模型(LAMs)针对Python代码生成进行微调,以实现更高精度的一次性或少次编程。它结合特定于开发框架的软件护栏,如Flask和Django,与SuperAGI的通用智能开发代理一起,提供复杂的现实世界软件系统。SuperCoder 2.0还确保了您的知识产权和代码免受AI相关的滥用,并与现有的开发栈如Jira、Github或Gitlab、Jenkins、CSPs以及QA解决方案如BrowserStack/Selenium Clouds深度集成,确保无缝的软件开发体验。
Blerp是一个AI TTS声音模因、表情GIF和声音提示的产品。
Blerp是一个AI TTS声音模因、表情GIF和声音提示的产品。它提供了最有趣的AI TTS警报、表情和声音包,适用于聊天和直播社区。观众可以在任何流媒体平台上播放最好的声音和AI TTS语音,并可以将表情和GIF附加到它们上。作为观众,您还可以在您最喜欢的主播流媒体上收集频道积分,以及播放属于您自己的WalkOn Sounds。主播可以设置自己的声音,并在任何支持的扩展平台上使用WalkOn Subscriber声音。
AI操作系统,为智能设备提供个性化助理。
CosmOS是由Humane公司开发的AI操作系统,旨在为连接的设备宇宙构建。它通过理解用户的偏好和需求,提供个性化的协助,简化交互,并在所有设备上处理复杂的任务。CosmOS的核心是Ai Bus,一个强大的AI协调系统,它无缝地协调各种AI模型、数据集、服务和设备能力,提供流畅直观的体验。CosmOS支持多设备形态,并适应最新的AI技术发展,易于新代理和能力的加入。它还强调了数据隐私和所有权,将控制权牢牢地放在个人和组织手中。
实时多模态智能,适用于每台设备。
Cartesia提供实时多模态智能技术,旨在为各种设备提供服务。产品包括Sonic和On-Device两大核心功能。Sonic是快速、超逼真的生成性语音API,由下一代状态空间模型驱动。On-Device提供实时模型,能够在用户的设备上进行快速、私密、离线的推理。Cartesia的产品背景是满足用户对于实时智能服务的需求,特别是在隐私和速度方面。产品定位于提供高效、安全的技术解决方案,以支持各种设备上的智能应用。
开源记忆层,为自主智能体提供人类式记忆功能
Memary是一个开源的记忆层,专为自主智能体设计,通过模仿人类记忆的方式,提升智能体的推理和学习能力。它使用Neo4j图数据库存储知识,并结合了Llama Index和Perplexity模型来增强知识图谱的查询能力。Memary的主要优点包括自动生成记忆、记忆模块、系统改进和回溯记忆等功能,旨在以最小的开发者实现与现有智能体集成,并通过仪表盘提供记忆分析和系统改进的可视化数据。
智能基础设施自主AI系统
Currux Vision是一个智能基础设施自主AI系统,帮助城市、交通部门、政府机构和基础设施开发者监测、优化和实现复杂的基础设施项目。它提供自动化的AI解决方案,能够监控、优化和盈利复杂的基础设施项目,帮助用户实现更高的效率和更好的收益。该系统的主要功能包括监测基础设施项目、优化基础设施运营、实现盈利和定价策略等。
一款能够自我进化的移动助手,专为复杂任务设计。
Mobile-Agent-E 是一款基于大型多模态模型(LMM)的移动助手,旨在帮助用户高效完成复杂的多步骤任务。它通过分层多智能体框架实现自我进化,能够从过去的任务中学习并改进。该产品的主要优点在于其强大的推理能力和对复杂任务的处理能力,尤其是在长周期、多应用交互的任务中表现出色。它适用于需要高效完成复杂移动任务的用户,如商务人士、研究人员等,目前处于研究阶段,未明确具体价格。
J1 Assistant 是一款创新的智能助手,支持多种设备和独特交互方式.
罗永浩旗下 AI 初创项目 Jarvis 现已悄悄在海外上线,目前其官网展示了一款名为 J1 Assistant 的聚合类 AI 助理软件,暂时仅拥有安卓版本。J1 Assistant 是由 Matter Innovation Inc. 开发的智能助手应用,旨在提高用户的生产力和生活效率。它支持多种设备,包括 Samsung Galaxy 和 Pixel 系列手机。J1 Assistant 的核心功能包括 Notes 和 To Do,用户可以通过这些功能创建运动指南、健康饮食计划和学习计划等。此外,J1 Assistant 引入了独特的 Ripple Touch 交互方式,为用户提供更加直观和便捷的操作体验。该应用的背景信息显示,它是由 Matter Innovation Inc. 在 2025 年推出的,旨在通过技术创新提升用户的生活质量。目前,J1 Assistant 的定价策略尚未明确,但其目标是为广泛的用户提供高效、便捷的智能助手服务.
浏览NFT猫艺术的移动应用
艺术猫浏览是一款移动应用,旨在帮助用户浏览和发现NFT猫艺术。它提供了一个简洁而直观的界面,让用户可以轻松浏览各种精美的猫艺术作品。用户可以收藏自己喜欢的作品,并与其他用户分享。艺术猫浏览还提供了实时的价格信息和交易数据,帮助用户了解市场趋势。它是艺术爱好者和数字资产投资者的理想选择。
Blaze 是一款强大的移动设备集成开发环境(IDE)和编译器,支持 Python 编程。
Blaze Code 是一款专为移动设备设计的 Python 集成开发环境(IDE),它允许用户随时随地编写、运行和调试 Python 代码。该产品的主要优点包括移动优先的设计理念、全面的 Python 开发环境支持以及离线编程能力。Blaze 旨在为开发者提供一个高效、便捷的移动编程解决方案,无论是在通勤途中、旅行中还是在任何需要快速编写代码的场景下都能使用。其开发者 Sarthak Developer 专注于提供优质的编程工具,以满足移动开发者的需求。
人类动作模仿与自主技能学习系统
HumanPlus是一个研究项目,旨在通过模仿人类动作来训练人形机器人,从而实现自主技能学习。该项目通过模拟强化学习训练低级策略,并将这些策略应用到真实世界中,实现实时跟踪人类身体和手部动作。通过影子模仿技术,操作员可以远程操作机器人收集全身数据,用于学习不同任务。此外,通过行为克隆技术,机器人能够模仿人类技能,完成各种任务。
为边缘设备定制的小型语言模型
MobiLlama是一个为资源受限设备设计的小型语言模型(SLM),它旨在提供准确且轻量级的解决方案,以满足设备上的处理需求、能效、低内存占用和响应效率。MobiLlama从更大的模型出发,通过精心设计的参数共享方案来降低预训练和部署成本。
AI驱动的移动对话体验
Gemini Live是谷歌推出的AI助手Gemini的新功能,它允许用户进行自由流畅的对话,支持多声道选择,无需手持操作,提供更自然、会话式的交互体验。它是数字助理领域的重大升级,能够处理复杂任务,节省用户宝贵的时间。
在移动端创建AI女孩。
PromptAI是一款顶尖的移动端AI生成器,可以让您创造理想的AI女孩。通过使用最新的AI技术,您可以打造出动漫风格、逼真风格和超逼真风格的AI伴侣。您可以轻松上传并微调任何图像,创建您理想的AI女孩。还可以探索一个拥有超过200万个AI女孩的庞大库,克隆并定制任何图像,释放您的创造力。
© 2025 AIbase 备案号:闽ICP备08105208号-14