浏览量:571
最新流量情况
月访问量
4.92m
平均访问时长
00:06:33
每次访问页数
6.11
跳出率
36.20%
流量来源
直接访问
51.61%
自然搜索
33.46%
邮件
0.04%
外链引荐
12.58%
社交媒体
2.19%
展示广告
0
截止目前所有流量趋势图
地理流量分布情况
中国
12.55%
德国
3.84%
印度
9.38%
俄罗斯
4.61%
美国
18.64%
智能手机应用的多模态代理框架
AppAgent是一个基于LLM(大型语言模型)的多模态代理框架,设计用于操作智能手机应用。通过简化的动作空间(如点击和滑动),模仿人类般的互动方式,实现应用操作,无需系统后端访问。代理通过自主探索或观察人类演示学习新应用的使用方法,创建知识库用于执行不同应用中的复杂任务。
新一代谷歌智能手机,搭载先进的AI技术。
Pixel 9是谷歌推出的新一代智能手机,以其先进的AI技术和摄影能力为特色。它配备了内置的AI助手Gemini,提供个性化的智能服务,如写作、规划、学习和执行任务。此外,Pixel 9的相机技术得到了显著提升,包括夜间拍摄、宏观摄影到天文摄影等。它还具备紧急情况下通过卫星连接紧急服务的能力,以及7年的操作系统和安全更新支持。
专为智能手机设计的高效大型语言模型推理框架
PowerInfer-2是一个为智能手机特别优化的推理框架,支持高达47B参数的MoE模型,实现了每秒11.68个token的推理速度,比其他框架快22倍。它通过异构计算和I/O-Compute流水线技术,显著减少了内存使用,并提高了推理速度。该框架适用于需要在移动设备上部署大型模型的场景,以增强数据隐私和性能。
Galaxy S25 是三星最新推出的智能手机,具备强大的性能和先进的 AI 技术。
Galaxy S25 是三星最新推出的智能手机,代表了当前智能手机技术的前沿水平。它搭载了定制的骁龙 8 Elite for Galaxy 处理器,性能强劲,能够满足用户在日常使用、游戏和多任务处理中的各种需求。该设备还配备了先进的 AI 技术,如 Galaxy AI 功能,支持通过自然语言完成多种任务,提升用户体验。Galaxy S25 提供多种颜色选择,设计时尚,坚固耐用,支持 IP68 级别防水防尘,适合追求高性能和智能化体验的用户。
智能听觉辅助应用
HeardThat™是一款智能听觉辅助应用,与现有助听器兼容。将您的智能手机转变为一个听觉辅助设备,轻松在嘈杂环境中进行清晰对话。享受无噪声干扰的交流体验。HeardThat™提供高质量的语音增强和噪声过滤功能,帮助用户在嘈杂环境中更好地聆听和理解。HeardThat™的定价根据不同的套餐和订阅计划而定。它定位于那些需要在嘈杂环境中提高听力的人群。
多模态智能代理框架,解决复杂任务
OmAgent是一个复杂的多模态智能代理系统,致力于利用多模态大型语言模型和其他多模态算法来完成引人入胜的任务。该项目包括一个轻量级的智能代理框架omagent_core,精心设计以应对多模态挑战。OmAgent由三个核心组件构成:Video2RAG、DnCLoop和Rewinder Tool,分别负责长视频理解、复杂问题分解和信息回溯。
一款AI助手,随时为您的手机提供建议
FloatingAI是一款时刻准备着理解您的手机并提供建议的AI助手。它可以理解当前屏幕上的所有信息,并根据您的指令提供建议。您可以在任何应用程序中使用它,例如:为任何聊天应用提供下一次回复的建议,帮助您轻松处理与他人的关系;在Twitter或Facebook等内容页面上从支持者或对手的角度提供评论;从任何内容中总结或提取关键点。您还可以创建自己的提示,让GPT阅读您的手机并协助您完成各种任务!FloatingAI支持输入您的OpenAI API密钥(无需为FloatingAI付费)或使用FloatingAI提供的GPT功能。立即让您的智能手机变得更智能吧!
最强大的Pixel手机,内置Gemini AI助手。
Pixel 9 Pro是谷歌推出的高端智能手机,以其先进的摄像头系统和内置的Gemini AI助手为特色。该手机配备了多项创新技术,包括超级夜景模式、超级变焦视频、以及专业级别的摄影控制功能。它代表了智能手机摄影的新高度,为用户提供了前所未有的拍摄体验。价格从$999起,或可选择36个月分期付款,每月$27.75。
音声通译,15种语言支持
Felo 瞬訳是一款智能手机应用,拥有世界首创的实时重写翻译(RRT)功能,满足同声传译的速度和翻译准确性的要求。支持超过13种语言的同声翻译,自动识别会话语言并保存翻译内容,用户可选择女性或男性的翻译音频。利用最新的人工智能技术,提供高速且精准的翻译结果,考虑了文本风格和语境,使翻译更加准确和丰富。适用于国际旅行、国际会议、交易展会等多种场景,也可用于学习外语和口语练习。
一款轻量级的多模态语言模型安卓应用。
MNN-LLM 是一款高效的推理框架,旨在优化和加速大语言模型在移动设备和本地 PC 上的部署。它通过模型量化、混合存储和硬件特定优化,解决高内存消耗和计算成本的问题。MNN-LLM 在 CPU 基准测试中表现卓越,速度显著提升,适合需要隐私保护和高效推理的用户。
基于大型多模态模型构建端到端网络代理
WebVoyager是一款创新的大型多模态模型(LMM)驱动的网络代理,能够通过与现实世界的网站交互,端到端完成用户指令。我们提出了一种新的网络代理评估协议,以解决开放式网络代理任务的自动评估挑战,利用GPT-4V的强大多模态理解能力。我们从15个广泛使用的网站收集了真实世界任务,用于评估我们的代理。我们展示了WebVoyager实现了55.7%的任务成功率,明显超过了GPT-4(所有工具)和WebVoyager(仅文本)设置的性能,突显了WebVoyager在实际应用中的卓越能力。我们发现我们提出的自动评估与人类判断达成了85.3%的一致性,为在真实世界环境中进一步发展网络代理铺平了道路。
Snap, tap, translate. 翻译菜单更快更便捷!
BABEL DISH是一款结合先进人工智能技术的APP,通过智能手机拍摄菜单照片,轻松翻译菜单文本。我们的AI系统将快速分析内容并将其翻译成你的母语。无需再为外语菜单而苦恼,BABEL DISH让你轻松掌握美食信息。
Cradle框架:用于控制计算机的多模态代理
Cradle框架旨在使基础模型能够通过与人类相同的通用接口(屏幕作为输入,键盘和鼠标操作作为输出)执行复杂的计算机任务。该框架在Red Dead Redemption II游戏中进行了案例研究,展示了其在复杂环境中的泛化和适应能力。
开源的手机端 GUI 智能代理,支持中英文应用操作。
AgentCPM-GUI 是一款开源的手机端大型语言模型(LLM)代理,专为操作中英文应用程序而设计,能够根据用户的屏幕截图自动执行任务。其主要优点在于高效的 GUI 元素理解、增强的推理能力以及对中文应用的精准支持。此技术的开发背景是为了提升移动设备上智能代理的用户体验,特别是在复杂任务处理方面。该产品定位于提高移动端的生产力,适用于各类用户。
一个用于智能设备等的多模态原生代理框架。
OmAgent是一个多模态原生代理框架,用于智能设备等。它采用分治算法高效解决复杂任务,能预处理长视频并以类似人类的精度进行问答,还能基于用户请求和可选天气条件提供个性化服装建议等。目前官网未明确显示价格,但从功能来看,主要面向需要高效任务处理和智能交互的用户群体,如开发者、企业等。
新一代多模态模型
Adept Fuyu-Heavy是一款新型的多模态模型,专为数字代理设计。它在多模态推理方面表现出色,尤其在UI理解方面表现出色,同时在传统的多模态基准测试中也表现良好。此外,它展示了我们可以扩大Fuyu架构并获得所有相关好处的能力,包括处理任意大小/形状的图像和有效地重复使用现有的变压器优化。它还具有匹配或超越相同计算级别模型性能的能力,尽管需要将部分容量用于图像建模。
构建智能多模态语音助手的端到端框架。
LiveKit Agents 是一个端到端框架,它使开发者能够构建能够通过语音、视频和数据通道与用户互动的智能多模态语音助手(AI代理)。它通过集成OpenAI的实时API和LiveKit的WebRTC基础设施,提供了创建语音助手的快速入门指南,包括语音识别(STT)、语言模型(LLM)和文本转语音(TTS)的流水线。此外,它还支持创建语音到语音代理、接听和响应来电、以及代表用户拨打电话的功能。
AI多模态数据绑定
ImageBind是一种新的AI模型,能够同时绑定六种感官模态的数据,无需显式监督。通过识别这些模态之间的关系(图像和视频、音频、文本、深度、热成像和惯性测量单元(IMUs)),这一突破有助于推动AI发展,使机器能够更好地分析多种不同形式的信息。探索演示以了解ImageBind在图像、音频和文本模态上的能力。
前沿级多模态AI模型,提供图像和文本理解
Pixtral Large是Mistral AI推出的一款前沿级多模态AI模型,基于Mistral Large 2构建,具备领先的图像理解能力,能够理解文档、图表和自然图像,同时保持Mistral Large 2在文本理解方面的领先地位。该模型在多模态基准测试中表现优异,特别是在MathVista、ChartQA和DocVQA等测试中超越了其他模型。Pixtral Large在MM-MT-Bench测试中也展现了竞争力,超越了包括Claude-3.5 Sonnet在内的多个模型。该模型适用于研究和教育用途的Mistral Research License (MRL),以及适用于商业用途的Mistral Commercial License。
全能型智能助手,满足多样化应用需求。
IMYAI智能助手是一款集成了多种智能功能的在线服务平台,旨在为用户提供聊天对话、文本处理、专业绘画、音乐创作、视频创作等多元化服务。它结合了先进的人工智能技术,通过对话词库、绘画词库等资源,能够满足不同用户在不同场景下的应用需求。
多模态长篇故事生成模型
SEED-Story是一个基于大型语言模型(MLLM)的多模态长篇故事生成模型,能够根据用户提供的图片和文本生成丰富、连贯的叙事文本和风格一致的图片。它代表了人工智能在创意写作和视觉艺术领域的前沿技术,具有生成高质量、多模态故事内容的能力,为创意产业提供了新的可能性。
轻量级但功能强大的多模态模型家族。
Bunny 是一系列轻量级但功能强大的多模态模型,提供多种即插即用的视图编码器和语言主干网络。通过从更广泛的数据源进行精选选择,构建更丰富的训练数据,以补偿模型尺寸的减小。Bunny-v1.0-3B 模型在性能上超越了同类大小甚至更大的 MLLMs(7B)模型,并与 13B 模型性能相当。
下一代旗舰智能手机芯片
MediaTek Dimensity 9400是联发科推出的新一代旗舰智能手机芯片,采用最新的Armv9.2架构和3nm工艺制程,提供卓越的性能和能效比。该芯片支持LPDDR5X内存和UFS 4.0存储,具备强大的AI处理能力,支持先进的摄影和显示技术,以及高速的5G和Wi-Fi 7连接。它代表了移动计算和通信技术的最新进展,为高端智能手机市场提供了强大的动力。
革命性AI技术,多模态智能互动
GPT-4o是OpenAI的最新创新,代表了人工智能技术的前沿。它通过真正的多模态方法扩展了GPT-4的功能,包括文本、视觉和音频。GPT-4o以其快速、成本效益和普遍可访问性,革命性地改变了我们与AI技术的互动。它在文本理解、图像分析和语音识别方面表现出色,提供流畅直观的AI互动,适合从学术研究到特定行业需求的多种应用。
实时多模态智能,适用于每台设备。
Cartesia提供实时多模态智能技术,旨在为各种设备提供服务。产品包括Sonic和On-Device两大核心功能。Sonic是快速、超逼真的生成性语音API,由下一代状态空间模型驱动。On-Device提供实时模型,能够在用户的设备上进行快速、私密、离线的推理。Cartesia的产品背景是满足用户对于实时智能服务的需求,特别是在隐私和速度方面。产品定位于提供高效、安全的技术解决方案,以支持各种设备上的智能应用。
© 2025 AIbase 备案号:闽ICP备08105208号-14