微软开源了一个高效的推理框架:bitnet.cpp,可直接在 CPU 上运行 1-bit 模型推理(如 BitNet b1.58)。
提供多种优化内核,支持在 CPU 上实现快速无损推理,使模型速度提升 1.37-6.17 倍,同时能耗降低高达 82.2%,可在单 CPU 上运行 100B 规模模型。
GitHub:http://github.com/microsoft/BitNet
官方提供了 2B 参数模型可直接使用,支持多种 Hugging Face 上的 1-bit 模型。
