近日,微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数,采用了独特的1.58位低精度架构进行原生训练,与传统的训练后量化方式相比,BitNet 在计算资源的需求上有了显著的降低。根据微软的介绍,该模型在非嵌入内存占用方面仅为0.4GB,远低于市场上其他同类产品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。
BitNet 的高效性能源于其创新的架构设计。模型放弃了传统的16位数值,而是采用了定制的 BitLinear 层,限制权重为 -1、0和 +1三种状态,形成了三值系统,这使得每个权重仅需约1.58位的信息存储。此外,层间的激活值则采用8位整数进行量化,从而形成了 W1.58A8的配置。微软还对 Transformer 架构进行了调整,引入了平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)和 subln 归一化,以确保低位训练的稳定性。
在开发过程中,BitNet 经历了三个阶段:首先以4万亿 token 的网络数据、代码和合成数学数据集进行预训练;接着通过公开及合成指令数据集进行监督微调;最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升模型的对话能力和安全性。
微软的测试结果显示,BitNet 在 GSM8K(数学)和 PIQA(物理常识)等基准测试中的表现非常出色,整体性能与主流的1B-2B 参数全精度模型相当,同时在能耗(每 token 消耗0.028焦耳)和 CPU 解码延迟(29毫秒)上具备明显的优势。
尽管 BitNet 展现出巨大的潜力,但其高效性依赖于微软提供的专用 C++ 框架 bitnet.cpp。常见的工具如 Hugging Face transformers 库无法完全体现其速度与能耗的优势。微软未来还计划优化 GPU 和 NPU 的支持,扩展上下文窗口至4096token,并探索更大规模的模型及多语言功能。现如今,BitNet b1.582B4T 已经以 MIT 许可证在 Hugging Face 平台发布,供广大开发者和研究人员进行测试和应用。
论文:https://arxiv.org/html/2504.12285v1
huggingface:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T
划重点:
🌟 该模型具有20亿参数,内存占用仅为0.4GB,显著低于同类产品。
🔧 采用创新架构,放弃传统16位数值,使用1.58位低精度存储权重。
🚀 已经在 Hugging Face 发布,微软计划进一步优化模型功能与性能。
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/46073
该文观点仅代表作者本人,平台仅提供信息存储空间服务。