电子行半岛综合体育业AI系列专题报告（一）：AI算力参数爆发兼论国产算力比较（德邦证券研报）

发布日期：2024-01-20 05:23 浏览次数：

　　半岛综合体育算力参数：多厂商逐鹿AI，矩阵计算为核心算力参数。AI算力参数种类繁多，其本质是精度与运算效率的取舍。为更好适应AI大模型的训练与推理，FP32 TensorCore，BF16等新兴数据类型应运而生。以FP32 Tensor Core为例，其为英伟达张量计算的数据格式，使得模型训练性能大幅提升。英伟达H200的FP32算力为67TFlops，对应FP32 Tensor Core算力为989TFlops，性能大幅提升。而国内各算力厂商产品性能迭代顺利半岛综合体育，华为海思此前发布的昇腾910在FP16算力性能上接近A100，下一代910B性能有望显著提升。寒武纪370对标英伟达L2芯片。海光信息深算三号研发进展顺利；龙芯中科第二代图形处理器LG200单节点性能达256GFlops-1TFlops，将基于2K3000的GPGPU技术及3C6000的龙链技术，研制专用GPGPU芯片。

　　互联参数：多卡互联为大模型桎梏，国内外差距巨大。相比小模型，大模型要求在模型切分后进行模型并行。模型并行使得多个GPU能同时运行模型的一部分，并在共享结果后进入到下一层。大模型的发展使得类似英伟达NVLink、NVSwitch等互联技术的重要性快速提升，同时互联性能参数也成为各大模型实际效果好坏的重要凭依。大多数厂商利用PCIe进行互联半岛综合体育，而英伟达的NVLink能够实现GPU间的直接互联，从而大幅提升通信效率，其NVLink带宽可达到900 GB/s。在大规模高精度的3DFFT、3950亿参数的大模型训练上，H100+NVLink组合的提升显著。我们认为随着大模型的复杂化，NVLink等多卡互联技术将愈加重要半岛综合体育。在多卡互联上，国内外厂商亦有所差距。以寒武纪MLU370-X8为例，寒武纪为多卡系统专门设计了MLU-Link桥接卡，其可实现4张加速卡为一组的8颗思元370芯片全互联，每张加速卡可获得200GB/s的通讯吞吐性能，带宽为PCIe 4.0的3.1倍。但相比英伟达NVLink 4.0的900GB/s半岛综合体育，该互联性能仅为英伟达的22%，仍有较大提升空间。

　　算力芯片：寒武纪（思元590性能有望显著提升）、海光信息（深算三号研发进展顺利）、龙芯中科（将基于2K3000的GPGPU技术及3C6000的龙链技术研制专用GPGPU芯片）

　　风险提示：下游需求复苏不及预期，技术研发风险，国内外政策和技术摩擦不确定性的风险。

　　免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。

　　如需转载请与《每日经济新闻》报社联系。未经《每日经济新闻》报社授权，严禁转载或镜像，违者必究半岛综合体育。

　　特别提醒：如果我们使用了您的图片，请作者与本站联系索取稿酬。如您不希望作品出现在本站，可联系我们要求撤下您的作品。

上一篇：电子科技大学半岛综合体育中山学院

下一篇：半岛综合体育电子后视镜板块1月19日跌114%协创数据领跌北向资金增持332亿元

公司资讯

行业动态

常见问题

电子行半岛综合体育业AI系列专题报告（一）：AI算力参数爆发兼论国产算力比较（德邦证券研报）

友情链接:

公司资讯

行业动态

常见问题

电子行半岛综合体育业AI系列专题报告（一）：AI算力参数爆发兼论国产算力比较（德邦证券研报）

友情链接:

微信号：微信二维码