哈佛、哥大开源1600万组蛋白质序列,解决AlphaFold 2训练数据私有难题!

[db:摘要]

哈佛大学和哥伦比亚大学等研究机构发布了名为OpenProteinSet的开源数据集,包含1600万个蛋白质多序列对齐(MSA)和相关数据。这一数据集的推出解决了DeepMind的AlphaFold 2训练数据私有化的问题,为生物信息学和蛋白质机器学习领域提供了重要支持。AlphaFold 2的蛋白质结构预测准确性引领了该领域,但其私有数据限制了其他研究者的进展。OpenProteinSet包含了所有蛋白质数据库的蛋白质和各种UniProt集群的数据,可用于广泛的AI模型训练。这一资源对于研究生物学、药物研发等领域具有重要意义,将推动相关研究的发展。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/23339

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2023年9月20日
下一篇 2023年9月20日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注