智谱 AI 开源视觉语言模型 CogAgent,支持 GUI 图形界面问答

[db:摘要]

智谱 AI 开源了 CogAgent,这是一个视觉语言模型,拥有 180 亿参数规模。CogAgent 在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。模型支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。此外,CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。用户可以通过上传截图进行任务推理,并获得计划、下一个动作以及具体操作的坐标信息。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/21835

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2023年12月21日
下一篇 2023年12月21日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注