简介:

开源的端到端视觉语言模型(VLM)基础的GUI代理

功能:

支持双语(中文和英文)交云,通过屏幕截图和自然语言进行交互。

在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面具有显著优势。

CogAgent-9B-20241220模型基于GLM-4V-9B,一个双语开源VLM基础模型。

支持多阶段训练和策略改进,实现GUI感知和推理预测的准确性。

模型输出遵循严格格式,以字符串格式返回,不支持JSON输出。

不支持连续对话,但支持连续执行历史。

需要图像作为输入,纯文本对话无法实现GUI代理任务。

需求人群:

"目标受众为研究人员和开发者,特别是那些在GUI自动化、视觉语言模型和自然语言处理领域寻求高效解决方案的专业人士。CogAgent提供的先进技术可以帮助他们开发和研究基于视觉语言模型的GUI代理,推进相关技术的发展和应用。"

浏览量:24

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图