中文版 | English

南科大余浩团队在具身智能硬件领域取得突破性成果

创建时间:2025-04-29

近日,南方科技大学深港微电子学院余浩教授研发团队在具身智能硬件领域取得多项突破性成果。团队共发表3篇期刊论文,分别发表在集成电路设计领域期刊《固态电路杂志》(IEEE Journal of Solid-State Circuits, JSSC)、电路与系统领域期刊 IEEE Transactions on Circuits and Systems I: Regular Papers 、电路与系统领域期刊《集成电路与系统》(IEEE Integrated Circuits & Systems, ISC)上。微信图片_20250418095006.jpg

基于矢量脉动的高能效深度神经网络加速器,突破传统AI芯片设计中“能效-面积-灵活性”三角矛盾

团队提出了基于矢量脉动的高能效深度神经网络加速器。相关成果以“A 29.12 TOPS/W Vector Systolic Accelerator with NAS-optimized DNNs in 28-nm CMOS”为题被集成电路设计领域期刊《固态电路杂志》(IEEE Journal of Solid-State Circuits, JSSC)接收。

随着大模型时代的到来,深度神经网络模型的算力需求呈指数级增长,但传统芯片架构面临能效与性能的双重瓶颈。研究团队针对这一挑战突破传统AI芯片设计中“能效-面积-灵活性”三角矛盾,实现了三大技术创新:动态精度调控:打破固定精度限制,在能效与准确率间实现动态平衡;结构化稀疏编码:通过对数尺度稀疏策略,在压缩率提升30%的同时保持模型精度;矢量脉动阵列:创新的脉动架构将内存带宽利用率提升至92%,显著降低数据搬运能耗。yh1-1图片1.jpg

图1.1 基于4-bit的矢量处理单元(SCV PE)中实现8-bit的组合和2-bit/1-bit的拆分运算

图1.1展示了基于拆分和组和矢量(SCV)的动态精度调控的混合精度加速器,该加速器利用在每一层复用可变精度单元矢实现1-bit、2-bit、4-bit和8-bit精度的计算,并进一步采用实现脉动阵列(VSA)实现更大规模的集成,以提升芯片的吞吐量。芯片在对 NSA 优化的混合精度 VGG-16 模型测试中,实现了平均能量效率达到29.12 TOPS/W(等效于2-bit精度的高能效),模型的推理准确率达到70.146%(等效于4-bit精度模型的高准确率)。该研究实现了很好的能效和面积效率,且实现了模型的低成本和高能效部署。yh1-2图片1.jpg

图1.2 动态精度调控加速器芯片测试

图1.2展示了动态精度调控芯片的测试环境及结果,实验结果标明该论文设计的芯片与目前国际最先进的研究工作相比,基于矢量的可拆分与组合实现的混合精度实现了最高的峰值能效(63.54 TOPS/W)和最高的峰值面积效率(7.94 TOPS/mm2)。yh1-3.png

图1.3  对数尺度的结构化稀疏编码策略以及混合稀疏的 Booth MAC 设计

图1.3展示了提出的对数尺度的结构化稀疏编码策略,本工作同时结合混合稀疏的 Booth 算法的 MAC 单元以及组矢量脉动阵列(G-VSA)来优化提高系统性能和能效。该混合加速器芯片采用28-nm CMOS 工艺,在工作电压为0.7V和工作频率为400MHz时,实现了平均能量效率高达 21.7 TOPS/W 的模型部署能效。测量结果显示,该混合稀疏芯片在能量效率和准确性方面均优于当前先进的稀疏芯片。yh1-4图片1.jpg

图1.4 混合稀疏加速器的芯片测试

图1.4展示了混合稀疏芯片的测试环境及结果。在0.6V到1V的运行电压下,芯片频率从199 MHz变化到986 MHz,大约比先前的先进工作高出约2.5倍,这得益于 G-VSA 和优化的混合稀疏 MAC 设计。加速卷积层的峰值吞吐量在1V时达到4.04 TOPs。在不同的供电电压下,能耗范围从26mW到314mW,对应的能效为1.67到31.26 TOPS/W。yh1-5图片1.jpg

图1.5 具有混合精度及稀疏的立方脉动架构芯片的性能比较

论文对基于立方脉动架构的混合精度和混合稀疏芯片,在相同测试用例的条件下进行了公平的比较,如图1.5所示,混合精度 VSA 在相似的准确度水平上展示了更优越的能量效率,而混合稀疏模型则实现了更优的模型压缩效果。因此,对于内存限制严重的场景推荐使用混合稀疏模型,而当能量效率和准确度是主要考虑因素时,则混合精度加速器更为合适。

2021级博士生李凯为论文第一作者,余浩为论文的唯一通讯作者,南方科技大学为论文的第一单位。该论文得到了国家科技重点研发计划项目和孔雀团队项目经费的支持。

成功部署端侧 FPGA 大模型推理系统,攻克大语言模型(LLM)在资源受限边缘设备上的部署难题

研发团队与深圳市迈特芯科技有限公司合作,进一步攻克大语言模型(LLM)在资源受限边缘设备上的部署,利用已验证的混合精度计算单元以及立方脉动阵列架构,成功部署了多个 7B LLM 语言模型及多模态模型。与GPU相比,该系统的吞吐量提高了1.91倍,能效提高了7.55倍;与最先进的 FPGA 加速器 FlightLLM 相比,整体性能提升了10%到24%。相关研究成果以“EdgeLLM: A Highly Efficient CPU-FPGA Heterogeneous Edge Accelerator for Large Language Models”为题发表在 IEEE Transactions on Circuits and Systems I: Regular Papers 上。yh2-1图片1.jpg

图2.1  端侧大模型推理卡

为了将大语言模型在资源受限的端侧系统部署,团队解决了几大困难挑战。首先,大语言模型计算量庞大以及内存访问需求极高,现有解决方案通常将这些权重参数量化为 INT4 格式。为了确保计算精度,模型中的激活函数仍然保持 FP16 格式。因此,在前馈神经网络(FFN)层中,系统需要支持 FP16INT4 格式的矩阵乘法。另一方面,在多头注意力(MHA)模块中,KV缓存作为激活数据动态生成,涉及KV缓存的矩阵乘法需要 FP16FP16 格式。因此,团队沿用混合精度的思路,定制化实现了FP16INT4以及 FP16FP16 的混合精度计算单元以加速 LLM。团队分析了前馈网络(FFN)和多头注意力(MHA)的计算需求,在高效率的混合精度计算单元的基础上,构建了立方脉动阵列架构以进一步提升计算密度。团队还提出了对数尺度结构化稀疏性和块级量化方法,以在硬件效率和算法精度之间取得平衡。

此外,在大语言模型中,定义计算流程的算子图极其复杂,包含数百甚至数千个以复杂方式相互连接的算子,确保从一个算子到另一个算子的过渡无缝且高效成为了一项重大挑战。团队分析了大语言模型中的编译需求,设计了一种统一且通用的数据格式,适用于所有算子和AI算法中的高维张量结构,使系统能够快速执行算子操作而无需任何数据重排。随后,开发了端到端的编译方案,其中动态编译用于处理不同输入 token 长度,指令流水线策略用于减少延迟。该方案能够动态编译所有算子,并将整个模型映射到 CPU-FPGA 异构系统上。yh2-2图片1.jpg

图2.2 不同端侧大模型推理卡对比

南方科技大学深港微电子学院2023级硕士生申奥同与中国科学院深圳先进技术研究院黄明强研究员同为第一作者,余浩为论文的唯一通讯作者,南方科技大学为论文的通讯单位。该研究得到了医学成像科学与技术系统全国重点实验室、科技创新2030重大科技项目的资助。

进行LLM 具身智能 NGS 研究,促成具身智能系统应用落地

研发团队还为解决大语言模型的具身智能系统应用落地提供了解决方案,相关成果以“emGene: An Embodied LLM NGS Sequencer for Real-time Precision Diagnostics”为题发表在电路与系统领域期刊《集成电路与系统》(IEEE Integrated Circuits & Systems, ISC)上。

余浩团队联合上海芯像生物科技有限公司合作研发了 LLM 具身化的 NGS 测序仪-emGene,优化后的大语言模型得以在端侧大模型推理卡上高效部署,使诊断流程大幅提速,从而实现实时、现场 DNA 分析,在医疗领域实现实时、现场基因智能诊断的实际应用。yh3-1图片1.jpg

图3.1 emGene大语言模型(LLM)边缘 NGS 测序仪

精准医疗正在革新全球医疗保健,通过实现个性化诊断、疾病预测以及定制化治疗策略,极大地提升了医疗水平。虽然基因组学与数据科学的整合蕴藏着优化精准治疗效果的巨大潜力,如何将基因测序数据转化为可应用于体外诊断的洞察力仍是一个关键挑战,这一瓶颈主要源自边缘侧智能处理和自动化能力的局限。尽管基因测序技术和生物信息学工具不断进步,从样本采集到诊断报告生成的工作流程依然零散、低效且缺乏智能化支持。

为了解决这些问题,团队提出了一款 emGene 大语言模型(LLM)的边缘NGS测序仪(图3.1),实现实时、现场智能基因诊断。该仪器整合了一个高效且全面的 emGene 处理流水线。采用深度学习网络进行初步数据分析,利用机器学习实现二次数据处理,并通过经过量化与压缩优化的大语言模型完成三阶数据解读。借助于 FPGA 部署,该方案加速了诊断流程。实验结果显示,其通量提高了13.72%,Q30达到了99.50%,并且在边缘侧实现了高达75 token/s 的智能诊断性能。yh3-21图片1.jpgyh3-22.png

图3.2 emGene 一二三阶段处理流水线

研发团队开发了一整套先进的 emGene 数据分析系统,以提升 NGS 设备上 DNA 测序的表现:在一阶分析中,团队利用深度学习构建了高通量簇检测模型,通过优化 CNN 和 Transformer 模型实现卓越的碱基识别,实现了较低的错误率、提高了数据质量、增加了吞吐量并加快处理速度;在二阶数据分析中,团队整合了机器学习模型,来提高变异检测的精度;同时,在三阶数据分析中并利用向量数据库和提示学习技术将领域特定的DNA知识嵌入大语言模型中,为各种应用提供智能报告解读。最后,团队采用了 CPU-FPGA 异构加速框架优化边缘设备上部署量化大语言模型(LLMs)的性能。该 FPGA 实现整合了多项定制优化措施,包括 FP16*INT4 和 FP16I*FP16 计算引擎、脉动计算阵列、结构化稀疏等技术。这些优化均针对 LLMs 特有的数据格式量身定制,显著提高了 FPGA 在边缘部署时的效率。yh3-3.png

图3.3  emGene一二三阶段处理流水线结果

图3.3展示了深度学习在一阶数据分析模块超越了传统方法性能:其平均处理速度快19%,检测到的簇数量多13.72%,且平均Q30 >99.50%。在二阶数据分析中,F-1 Score 超越了其他设备处理结果。在三阶数据分析方面,通过引入 ChatGLM2-6B 模型和提示学习技术,在边缘设备上经过 INT8 量化后,准确性和速度均获得了显著提升,达到71.64%的精度,且性能最高可达75 tokens/s。

本研究工作使得实时边缘基因数据分析成为可能,从而大幅提升了精准医疗的可及性和效率,同时显著提高了诊断准确性和自动化水平,为人工智能驱动的个性化医疗构建了一个稳健平台,并为未来的医疗服务设定了全新的标杆。

余浩为论文的通讯作者,南方科技大学为论文的第一单位,该论文得到了国家科技重点研发计划项目和孔雀团队项目经费的支持。

 

论文链接:

论文一:https://ieeexplore.ieee.org/document/10972309

论文二:https://ieee-cas.org/publication/TCAS-I

论文三:https://ieeexplore.ieee.org/document/10930726


供稿:深港微电子学院

通讯员:刘碧

主图:丘妍

编辑:曾昱雯