清华大学研发新视觉语言模型CogAgent,深化GUI理解与导航

[db:摘要]

清华大学智普AI团队推出CogAgent,该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航,采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航以及文本和视觉问答任务上均表现出色。CogAgent的潜在应用包括自动化GUI操作、提供GUI帮助和指导,以及推动新的GUI设计和交互方式。尽管仍在早期开发阶段,但该模型有望在计算机交互方式上带来重大改变。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/21745

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2023年12月27日
下一篇 2023年12月27日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注