需求人群:
"Mobile-Agent可用于自动化移动设备操作,评估移动设备性能,提高移动应用程序的适应性。"
使用场景示例:
自动化移动设备操作:Mobile-Agent可用于自动化执行移动应用程序中的任务,提高效率。
移动设备性能评估:利用Mobile-Agent进行移动设备操作评估,以提高性能。
提高移动应用程序适应性:Mobile-Agent可帮助移动应用程序在不同环境中实现更大的适应性。
产品特色:
利用多模大语言模型技术
利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文字元素
自主规划和分解复杂操作任务
通过逐步操作来导航移动应用程序
具有更大的适应性,消除了对特定系统定制的必要性
引入了Mobile-Eval,用于评估移动设备操作的基准
浏览量:642
自主多模移动设备代理
Mobile-Agent是一款自主多模移动设备代理,利用多模大语言模型(MLLM)技术,首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文字元素。基于感知的视觉环境,它自主规划和分解复杂操作任务,并通过逐步操作来导航移动应用程序。与之前依赖于应用程序的XML文件或移动系统元数据的解决方案不同,Mobile-Agent以视觉为中心的方式在各种移动操作环境中具有更大的适应性,从而消除了对特定系统定制的必要性。为了评估Mobile-Agent的性能,我们引入了Mobile-Eval,这是一个用于评估移动设备操作的基准。基于Mobile-Eval,我们对Mobile-Agent进行了全面评估。实验结果表明,Mobile-Agent实现了显着的准确性和完成率。即使在具有挑战性的指令下,例如多应用程序操作,Mobile-Agent仍然可以完成要求。
基于LLM的智能字幕助手,一键生成高质量视频字幕
卡卡字幕助手(VideoCaptioner)是一款功能强大的视频字幕配制软件,利用大语言模型进行字幕智能断句、校正、优化、翻译,实现字幕视频全流程一键处理。产品无需高配置,操作简单,内置基础LLM模型,保证开箱即用,且消耗模型Token少,适合视频制作者和内容创作者。
优化的小型语言模型,适用于移动设备
MobileLLM是一种针对移动设备优化的小型语言模型,专注于设计少于十亿参数的高质量LLMs,以适应移动部署的实用性。与传统观念不同,该研究强调了模型架构在小型LLMs中的重要性。通过深度和薄型架构,结合嵌入共享和分组查询注意力机制,MobileLLM在准确性上取得了显著提升,并提出了一种不增加模型大小且延迟开销小的块级权重共享方法。此外,MobileLLM模型家族在聊天基准测试中显示出与之前小型模型相比的显著改进,并在API调用任务中接近LLaMA-v2 7B的正确性,突出了小型模型在普通设备用例中的能力。
基于多模态大语言模型的可解释图像检测与定位
FakeShield是一个多模态框架,旨在解决图像检测和定位(IFDL)领域中的两个主要挑战:检测原理的黑箱性和在不同篡改方法间的有限泛化能力。FakeShield通过利用GPT-4o增强现有的IFDL数据集,创建了多模态篡改描述数据集(MMTD-Set),用于训练FakeShield的篡改分析能力。该框架包括领域标签引导的可解释检测模块(DTE-FDM)和定位模块(MFLM),能够处理各种类型的篡改检测解释,并实现由详细文本描述引导的定位。FakeShield在检测准确性和F1分数上优于其他方法,提供了一个可解释且优越的解决方案。
高效、轻量级的量化Llama模型,提升移动设备上的运行速度并减少内存占用。
Llama模型是Meta公司推出的大型语言模型,通过量化技术,使得模型体积更小、运行速度更快,同时保持了模型的质量和安全性。这些模型特别适用于移动设备和边缘部署,能够在资源受限的设备上提供快速的设备内推理,同时减少内存占用。量化Llama模型的开发,标志着在移动AI领域的一个重要进步,使得更多的开发者能够在不需要大量计算资源的情况下,构建和部署高质量的AI应用。
全球大语言模型资源汇总
awesome-LLM-resourses是一个汇总了全球大语言模型(LLM)资源的平台,提供了从数据获取、微调、推理、评估到实际应用等一系列资源和工具。它的重要性在于为研究人员和开发者提供了一个全面的资源库,以便于他们能够更高效地开发和优化自己的语言模型。该平台由王荣胜维护,持续更新,为LLM领域的发展提供了强有力的支持。
一个支持B站直播的虚拟数字人项目
VirtualWife是一个虚拟数字人项目,旨在打造一个拥有自己“灵魂”的虚拟伴侣。该项目支持B站直播,并且兼容openai、ollama等大语言模型。VirtualWife不仅能够提供情感陪伴,还能作为恋爱导师和心理咨询师,满足人类的情感需求。项目处于孵化阶段,作者投入了大量的业余时间进行开发,希望用户能够通过点star来支持项目的发展。
开源大语言模型,匹配专有强大能力。
Open O1是一个开源项目,旨在通过开源创新,匹配专有的强大O1模型能力。该项目通过策划一组O1风格的思考数据,用于训练LLaMA和Qwen模型,赋予了这些较小模型更强大的长期推理和解决问题的能力。随着Open O1项目的推进,我们将继续推动大型语言模型的可能性,我们的愿景是创建一个不仅能够实现类似O1的性能,而且在测试时扩展性方面也处于领先地位的模型,使高级AI能力为所有人所用。通过社区驱动的开发和对道德实践的承诺,Open O1将成为AI进步的基石,确保技术的未来发展是开放的,并对所有人有益。
专为糖尿病患者设计的高级语言模型
Diabetica是一个专门针对糖尿病治疗和护理而开发的高级语言模型。它通过深度学习和大数据分析,能够提供包括诊断、治疗建议、药物管理、生活方式建议和患者教育在内的多种服务。Diabetica的模型Diabetica-7B和Diabetica-1.5B在多个糖尿病相关任务上展示了卓越的性能,并且提供了一个可复现的框架,使得其他医学领域也能受益于此类AI技术。
开启代码智能新篇章的模型
WaveCoder是由微软亚洲研究院开发的代码大语言模型,通过指令微调增强代码大语言模型的广泛性和多功能性。它在代码摘要、生成、翻译、修复等多个编程任务上展现出卓越的性能。WaveCoder的创新之处在于其使用的数据合成框架和两阶段指令数据生成策略,确保了数据的高质量和多样性。该模型的开源,为开发者提供了一个强大的编程辅助工具,有助于提高开发效率和代码质量。
自动化研究与开发工具,提升研发效率与质量。
RD-Agent是微软亚洲研究院推出的一款自动化研究与开发工具,依托大语言模型的强大能力,开创了以人工智能驱动R&D流程自动化的新模式。它通过整合数据驱动的R&D系统,可以借助人工智能能力驱动创新与开发的自动化,不仅提高了研发效率,还利用智能化的决策和反馈机制,为未来的跨领域创新与知识迁移提供了无限可能。
利用大语言模型生成PPT文件的SpringBoot Web应用
PresentationGen是一个基于SpringBoot框架开发的Web应用程序,它通过集成大语言模型(LLM)来自动化生成PPT文件。该技术通过预处理大量单页模板,并在用户使用时根据需求实时组合,实现快速生成PPTX文件。它支持文本替换,使得生成的演示文稿更加个性化和专业。该产品主要面向需要快速制作演示文稿的用户,如商务人士、教育工作者和设计师,帮助他们节省时间并提高工作效率。
人工智能领域的多轮对话处理专家
汉王天地大模型是汉王科技推出的一款专注于人工智能领域的大语言模型,拥有30年的行业积累。它能够实现多轮对话,高效处理任务,并深耕办公、教育、人文等多个垂直细分领域。该模型通过从人类反馈中进行强化学习,不断优化自身智能,提供包括智能校对、自动翻译、法律咨询、绘画生成、文案生成等在内的多样化服务,以赋能法律、人文、办公、教育、医养等行业,提升效率和创意。
高等数学问题的智能解答助手
AMchat是一个集成了数学知识和高等数学习题及其解答的大语言模型。它基于InternLM2-Math-7B模型,通过xtuner微调,专门设计用于解答高等数学问题。该项目在2024浦源大模型系列挑战赛(春季赛)中获得Top12和创新创意奖,体现了其在高等数学领域的专业能力和创新性。
哔哩哔哩自主研发的轻量级大语言模型
Index-1.9B系列是哔哩哔哩公司自主研发的轻量级大语言模型,包含多种版本,如base、pure、chat和character等,适用于中英文为主的语料预训练,并在多个评测基准上表现优异。模型支持SFT和DPO对齐,以及RAG技术实现角色扮演定制,适用于对话生成、角色扮演等场景。
汇总和比较全球主要AI模型提供商的价格信息
AIGCRank大语言模型API价格对比是一个专门汇总和比较全球主要AI模型提供商的价格信息的工具。它为用户提供最新的大语言模型(LLM)的价格数据,包括一些免费的AI大模型API。通过这个平台,用户可以轻松查找和比较OpenAI、Claude、Mixtral、Kimi、星火大模型、通义千问、文心一语、Llama 3、GPT-4、AWS和Google等国内外主要API提供商的最新价格,确保找到最适合自己项目的模型定价。
连接先进AI与用户的革命性平台
HuggingChat是一款iOS应用程序,旨在促进用户与多家提供商(如Mistral AI、Meta和Google)的多个顶尖大型语言模型之间的无缝沟通。它可以满足多种场景需求:激发创意,提供专家指导,促进教育与自我提升,提高工作效率,快速响应日常问题等。作为变革性AI技术的先锋采用者,HuggingChat将让您体验与先进大语言模型对话的无限可能。
面向长期视频理解的大规模多模态模型
MA-LMM是一种基于大语言模型的大规模多模态模型,主要针对长期视频理解进行设计。它采用在线处理视频的方式,并使用记忆库存储过去的视频信息,从而可以在不超过语言模型上下文长度限制或GPU内存限制的情况下,参考历史视频内容进行长期分析。MA-LMM可以无缝集成到当前的多模态语言模型中,并在长视频理解、视频问答和视频字幕等任务上取得了领先的性能。
扩展Transformer模型处理无限长输入
Google开发的“Infini-attention”技术旨在扩展基于Transformer的大语言模型以处理无限长的输入,通过压缩记忆机制实现无限长输入处理,并在多个长序列任务上取得优异表现。技术方法包括压缩记忆机制、局部与长期注意力的结合和流式处理能力等。实验结果显示在长上下文语言建模、密钥上下文块检索和书籍摘要任务上的性能优势。
基于大语言模型的个性化图像生成工具
MoMA Personalization 是一款基于开源 Multimodal Large Language Model (MLLM) 的个性化图像生成工具。它专注于主题驱动的个性化图像生成,可以根据参考图像和文本提示生成高质量、保留目标物体特征的图像。MoMA 不需要任何 fine-tuning,是一个插件式的模型,可以直接应用于现有的 diffusion 模型中,并在保留原模型性能的同时提高生成图像的细节和 prompt 忠实度。
文档理解的模块化多模态大语言模型
mPLUG-DocOwl 是一款用于文档理解的模块化多模态大语言模型,能够处理 OCR-free 文档理解任务。该模型具有出色的性能表现,支持文档视觉问答、信息问答、图表问答等多种任务。用户可以通过模型提供的在线演示来体验其强大功能。
媲美人类护士的医疗护理保健模型
Polaris是由Hippocratic AI 开发的一款高度专注于安全、用于医疗保健的大语言模型(LLM)系统,通过星座架构和专业支持代理组合,能够执行多项医疗相关的复杂任务。产品定位于提供与患者长时间、多轮次的语音对话,并提供专业准确的医疗建议。价格方面,按小时计费,每小时9美元。主要功能包括实时多轮语音对话、医疗信息提供和解释、隐私与合规性检查、药物管理和咨询、实验室与生命体征分析、营养建议、病历和政策查询、患者关系建设等。
基于大语言模型的问答系统,可回答各种问题
Search4All是一个基于大语言模型的问答系统。它可以回答各种问题,包括事实性问题、解释性问题、分析问题等。该系统使用先进的自然语言处理技术,能够深入理解问题的含义并给出准确的答复。它具有广泛的知识储备,涵盖了历史、地理、科学、艺术、体育等多个领域。同时,它还具备一定的推理和分析能力,可以对复杂问题进行逻辑分析和建议性回答。使用Search4All可以帮助用户快速获取所需信息,提高工作效率。
生成式AI资源中心,覆盖研究、面试资源、笔记本等
这个GitHub仓库是一个集中存放生成式人工智能相关资源的中心,包括每月最新研究论文、面试题库、课程材料、代码笔记本等。内容定期更新,旨在让开发者及从业人员能够及时跟进最新进展,提高生产力。主要资源包括论文摘要、面试问题分类、免费课程列表、开源笔记本等,还包括一些使用场景和范例。
专注长文本、多语言、垂直化
达观 “曹植” 大模型是专注于长文本、多语言、垂直化发展的国产大语言模型。具有自动化写作、翻译、专业性报告写作能力,支持多语言应用和垂直行业定制。可提供高质量文案撰写服务,广泛适用于各行业,是解决企业实际问题的智能工具。
保护您的身份和数据免受大型语言模型隐私泄露威胁
ZeroTrusted.ai是一家先驱性的公司,专门从事生成式人工智能安全领域。他们的LLM防火墙产品旨在保护您免受由于语言模型训练数据集可能包含您的敏感信息而带来的数据曝光和被不道德的语言模型提供商或恶意行为者利用的风险。该产品提供匿名功能以保护提示语隐私,通过ztPolicyServer和ztDataPrivacy确保数据安全和隐私,优化提示语和验证结果以提高准确性并防止模型编造,并支持与LangChain、Zapier等多种工具集成。该产品分为免费版、标准版、商业版和企业版等多个定价方案,功能和服务级别有所不同。ZeroTrusted.ai致力于简化安全合规,通过云无关的零信任解决方案、动态自适应加密等技术最大程度地保护应用程序和数据。
© 2024 AIbase 备案号:闽ICP备08105208号-14