清华大学研发新视觉语言模型CogAgent，深化GUI理解与导航

aiuc • 2023年12月27日下午3:35 • AI资讯 • 阅读 4

[db:摘要]

清华大学智普AI团队推出CogAgent，该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航，采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航以及文本和视觉问答任务上均表现出色。CogAgent的潜在应用包括自动化GUI操作、提供GUI帮助和指导，以及推动新的GUI设计和交互方式。尽管仍在早期开发阶段，但该模型有望在计算机交互方式上带来重大改变。

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/21745

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

CogAgent 清华大学视觉语言模型

赞 (0)

0 0

OPPO Find X7 将搭载 AndesGPT 大模型小布助手将接入

上一篇 2023年12月27日

国际SOS 《2024 年度全球风险展望》：人工智能风险与机遇交织

下一篇 2023年12月27日

AI资讯

平安国际智慧城市科技股份有限公司参评“‘维科杯’·OFweek2020（第五届）人工智能行业优秀产品应用奖”

0020

aiuc
2020年9月15日
AI资讯

ChatGPT 能耗揭秘：每次响应仅需 0.3 瓦，远低于传闻！

0040

aiuc
2025年2月12日
AI资讯

2023华为政企旗舰产品与解决方案发布，加速政企客户数字化转型

0030

aiuc
2023年5月9日
AI资讯

网易有道推出虚拟人口语私教 Hi Echo

0040

aiuc
2023年10月12日
AI资讯

亚马逊AWS在印度大手笔投资83亿美元，打造AI云新天地，引领科技新潮流

0050

aiuc
2025年1月24日
AI资讯

朱啸虎：AI创业的赚钱风向彻底变了，送给创业者三句话

0030

aiuc
2024年6月25日
AI资讯

图森未来参评“‘维科杯’·OFweek2020（第五届）人工智能行业优秀产品应用奖”

0020

aiuc
2020年9月18日
AI资讯

AI搜索引擎新势力Perplexity入局电商，开发智能购物中心挑战谷歌霸主地位

0030

aiuc
2024年11月19日
AI资讯

灯塔AI再升级：上新票房预测解析等功能春节期间免费开放

0050

aiuc
2024年1月24日

发表回复