用国产GPU训练的国产大模型来了！能耗暴降97.7%

发布时间：2025-09-11 01:05:44 作者：玩站小弟

文丨不知白当年《狂飙》为什么能走红，除开本身跌宕起伏的剧情，。

智东西作者陈骏达编辑心缘

智东西9月10日报道，9月5日，中国科学院自动化研究所发布了类脑脉冲大模型“瞬悉1.0”（SpikingBrain-1.0）的技术报告。SpikingBrain-7B开源模型仅用主流大模型2%的预训练数据，就实现了Qwen2.5-7B 90%的性能，并与Llama-3.1-8B等众多开源Transformer模型相媲美的性能。

中科院自动化研究所称，这是我国首次提出大规模类脑线性基础模型架构，也是我国首次在国产GPU算力集群上构建类脑脉冲大模型的训练和推理框架。

SpikingBrain训练和推理的全过程均在国产算力上完成，使用的是由沐曦股份曦云C550 GPU组成的集群。在训练过程中，集群连续运行2周未中断，这也证明了构建国产自主可控的新型非Transformer大模型架构生态的可行性。

除了极高的数据效率之外，SpikingBrain还在推理效率上实现数量级提升。在100万个token上下文场景下，SpikingBrain-7B生成首个token的耗时，比Qwen2.5-7B降低了96.2%。

这一特性也使得SpikingBrain尤其适合超长序列处理任务，如在法律和医学文档分析、复杂多智能体模拟、高能粒子物理实验、DNA序列分析、分子动力学轨迹等。

在能耗方面，该模型的平均乘加运算能耗相比传统FP16和INT8运算，分别降低了97.7%和85.2%。

▲SpikingBrain-1.0技术报告

SpikingBrain-1.0共有7B参数量和76B参数量两个版本。9月3日，7B版本的模型已在GitHub、魔搭等平台开源。76B版本的模型暂未开源，但提供了体验链接。

▲SpikingBrain-1.0体验界面

开源地址：

http://github.com/BICLab/SpikingBrain-7B

技术报告：

http://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

体验链接：

http://controller-fold-injuries-thick.trycloudflare.com/

一、Transformer遇上效率瓶颈，从人类大脑找灵感

为什么需要新型非Transformer架构的大模型？打造SpikingBrain的联合团队认为，Transformer架构面临一个固有缺点：训练计算开销随序列长度呈平方级增长，推理时的显存占用也随序列长度线性增加，带来海量资源消耗。这限制了模型处理超长序列（100万个token以上的序列）的能力。

Transformer架构本质上依赖“外生复杂性”，即通过堆叠更多神经元和更大规模计算来提升智能水平。与此对比，人脑以极低的能耗（约为20W）实现了高度复杂的智能，其神经元具有丰富的内部动力学与多样性。

这意味着大模型或许存在另一条“内生复杂性”的发展路径，通过充分利用生物神经网络在神经元和神经环路上的结构和功能特性，打造下一代模型架构。

低功耗脉冲神经网络（SNN）方案，被学界认为是通往更通用AI系统的新一代低功耗类脑神经网络方案之一。其工作方式与大脑类似，只在需要的时候发送信号，因此功耗较低。

研究发现，复杂的脉冲神经元可以用几个小神经元组合来实现同样的效果，这让构建高效的类脑网络成为可能。

基于上述理论研究，SpikingBrain团队在模型架构中集成了混合高效注意力、MoE模块和脉冲编码三大核心组件。

1、混合高效注意力

注意力机制是大语言模型的核心计算单元。SpikingBrain整合了不同注意力机制的优势，7B版本模型采用层间混合的线性注意力与SWA，兼顾全局信息检索和局部依赖。

而更大规模的SpikingBrain-76B则使用层内并行混合，将线性、SWA与全量softmax注意力结合，同一层中并行运行多种注意力机制，可高效处理全局信息、局部依赖和长程依赖。

▲SpikingBrain整体模型架构

2、混合专家模块

SpikingBrain从Qwen2.5-7B-Base（稠密模型）扩展而来。为了在现有稠密模型的基础上高效扩展，得到稀疏的混合专家模型，SpikingBrain团队使用了上采样（Upcycling）技术。

这一方法的核心是通过参数复制和输出缩放，使扩展后的模型在初始状态下与原模型保持一致，从而避免性能损失。

3、脉冲神经元

脉冲神经元是脉冲神经网络的基本单元。工程应用中常见的LIF（Leaky Integrate-and-Fire）模型，能在一定程度上模拟生物神经元的核心特性。但LIF存在神经元过度沉默或过度激活问题，从而影响模型精度与能效的平衡。

为解决这些问题，SpikingBrain团队提出了自适应阈值脉冲神经元（Adaptive-threshold Spiking Neurons），可保持神经元适度激活，避免过度兴奋或静息。

二、3个环节完成模型转换，全面适配国产GPU集群

在训练过程中，SpikingBrain团队将Qwen2.5-7B-Base转换为类脑脉冲大模型，主要包含3个环节。

持续预训练和长序列扩展中，模型使用了约150B tokens的数据，将序列长度从8K逐步扩展至128K。其训练数据量仅占从头训练所需的2%，实现了高效模型转换。

监督微调环节中，通过使用不同领域的数据集以及由DeepSeek-R1蒸馏得到的高质量推理数据集，模型在通用知识、对话和推理等方面的能力逐步提升。

之后，模型还需要经过脉冲化编码。受生物神经系统启发，SpikingBrain团队提出将大模型的连续激活值转换为整数脉冲序列的策略。

在推理阶段，整数脉冲计数会被展开成稀疏脉冲序列，以适配事件驱动计算。

SpikingBrain提供三种编码方式：二值脉冲简单低能耗；三值脉冲支持类似生物神经系统的兴奋-抑制调控，减少时间步和脉冲总数；二进制脉冲可在高计数场景下显著降低计算量和能耗。

▲三种脉冲方案示意图

上述脉冲化方案可在GPU上兼容运行，但GPU无法完全利用脉冲信号“事件驱动、稀疏异步”的核心优势。要完全释放本方案的低能耗潜力，需要结合专用异步硬件（如类脑芯片、脉冲处理器）。

SpikingBrain仍然选择了在国产沐曦GPU集群上进行训练，沐曦软件平台通过MoE优化、计算通信并行、显存优化、算子融合和自动调优等手段实现适配。

这一适配过程包括Triton适配、CUDA向MACA（沐曦兼容CUDA的软件栈）框架迁移两部分。这两条路径针对模型内部不同算子进行优化，结合形成适用于沐曦GPU的硬件适配方案。

▲沐曦平台上的CUDA和Triton算子适配

在适配过程中，下游用户可以在保持原有编程习惯和接口调用方式的前提下使用，无需对模型代码进行大量修改。同时，平台提供调试和性能分析工具，便于开发者观察模型在硬件上的执行情况，并进行必要的微调和优化。

训练大型语言模型通常超出单个GPU的显存容量，因此，SpikingBrain团队结合数据并行、流水线并行、专家并行和序列并行等分布式训练技术，将计算和存储负载分散到多个GPU上。

三、恢复基座模型9成性能，集群连续运行2周未中断

在下游任务评测中，SpikingBrain-7B在多个基准测试上恢复了基座模型Qwen2.5-7B约90%的性能，整体水平与Mistral-7B、Llama-3-8B等先进Transformer模型相当，表明高效线性注意力在降低推理复杂度的同时仍能保持较强的建模能力。

SpikingBrain-76B混合线性MoE模型几乎完全恢复了基座模型性能。

经过三阶段SFT对齐训练后，SpikingBrain-76B在通用知识、长序列建模及指令跟随能力上，与同量级开源对话模型相当，同时保持预训练获得的通用能力，未出现过拟合现象，显示了架构在对齐训练中的稳定性和可扩展性。

在长序列推理场景中，SpikingBrain-7B模型在100万个token长度下TTFT（生成第一个Token所需时间）相比Transformer架构加速达到26.5倍，400万Token长度下加速超过100倍。

训练性能方面，7B模型在128K序列长度下的训练吞吐量为Qwen2.5-7B的5.36倍，这与推理性能提升基本一致。

同时在手机CPU端64K、128K、256K长度下，SpikingBrain较Llama3.2的同规模模型推理速度分别提升4.04倍、7.52倍、15.39倍。

SpikingBrain-7B在训练过程中的每秒每GPU处理token量达到1558个，模型FLOPs利用率达23.4%，显示了较高计算效率和资源利用率。集群在连续两周运行期间未发生中断，体现了国产硬件和软件生态系统的可靠性和鲁棒性。

脉冲统计显示，7B版本模型实现了超过69.15%的稀疏度，长序脉冲占比约1.85%，这为低功耗的类脑大模型运行提供有力支撑。

结合异步事件驱动硬件计算，平均乘加运算能耗相比FP16和INT8，分别实现97.7%和85.2%的能耗降低。这表明，将脉冲驱动计算与量化相结合，能够有效大幅降低能耗开销，同时做到精度损失可控。

四、一手体验76B版本生成效果，在小球弹跳上翻车了

在官方试用网页中，智东西对SpikingBrain-76B模型的能力进行了一手体验。在这一网页中，模型的最大生成长度被限制为大约8000个token及以下，超过后会直接中止回答。

▲SpikingBrain-76B模型的高级参数设置页面

奶茶视频APP首先让SpikingBrain-76B介绍一下“何为类脑脉冲大模型”，这主要是为了考察SpikingBrain-76B的理解与表达能力和世界知识储备。

由于使用了DeepSeek-R1蒸馏得到的高质量推理数据集，SpikingBrain-76B的思维链风格与DeepSeek-R1颇为接近，同样拥有许多口语化表达。

SpikingBrain-76B给出的回答结构清晰，内容也基本正确。不过，它称Transformer能效比要优于类脑脉冲大模型，这与学界的主流观点是相悖的。

在小球弹跳这一考验模型编程与物理规律理解力的题目上，SpikingBrain-76B有点“翻车了”。它打造的网页十分原始，小球也未能在六边形内自然弹跳，而是卡在了画面正中央。

奶茶视频APP还让SpikingBrain-76B回答了9.8-9.11这样的算术题。在2048个token的最大生成长度设定下，模型直接提示思考长度超过生成限制。

当最大生成长度被设置为约8000个token时，SpikingBrain-76B通过列竖式给出了正确回答。

中国科学院自动化研究所在网页上提示道，模型在访问高峰时反应较慢。在奶茶视频APP的实际体验过程中，一轮对话往往要20秒左右才能完成。

结语：大模型全栈国产自主可控再添进展

目前，国内已有多家企业和高校探索了非Transformer的模型架构，除了中国科学院自动化研究所本次发布的SpikingBrain之外，上海交通大学也曾打造一款脑启发大语言模型，采用“信号全连接流动”机制模拟人脑的语义编码和信号传播方式。

这类受大脑计算方式启发的模型架构，在计算效率上与Transformer架构相比有明显优势，在与国产算力硬件结合后，有望走出一条大模型国产自主可控的新路径。

Tag： {loop type="keywords" row='10' } {$vo.title}

奶茶视频APP,奶茶视频下载,奶茶视频app官网,奶茶视频app海纳百川有容乃大

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

用国产GPU训练的国产大模型来了！能耗暴降97.7%