魔搭社区开源了一种名为 OneLLM 的多模态对齐统一框架。该框架利用通用编码器和统一的投影模块与 LLM 对齐多模态输入。它支持图像、音频、视频等多种模态数据的理解,并在视频 – 文本、音频 – 视频 – 文本等任务中表现出较强的零样本能力。OneLLM 的开源代码已经发布在 GitHub 上,可以在该平台上获得相关模型权重和模型创空间。
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/21813
该文观点仅代表作者本人,平台仅提供信息存储空间服务。
[db:摘要]
魔搭社区开源了一种名为 OneLLM 的多模态对齐统一框架。该框架利用通用编码器和统一的投影模块与 LLM 对齐多模态输入。它支持图像、音频、视频等多种模态数据的理解,并在视频 – 文本、音频 – 视频 – 文本等任务中表现出较强的零样本能力。OneLLM 的开源代码已经发布在 GitHub 上,可以在该平台上获得相关模型权重和模型创空间。
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/21813
该文观点仅代表作者本人,平台仅提供信息存储空间服务。