目今,,,,,,,大模子生长重心正从“训练”转向“推理”,,,,,,,基于超节点形态的云上推理成为趋势,,,,,,,超节点推理性能成为工业界焦点关注点。。。。。。近期,,,,,,,中国凯发·(中国)网站-AG旗舰厅研究院团结广东公司、华为公司基于昇腾384超节点系统,,,,,,,依托研究院自研“翼芯”智算测试与适配优化平台,,,,,,,开展了面向差别场景的大模子推理性能测试与调优。。。。。。经系统优化,,,,,,,各场景推理性能均大幅提升,,,,,,,其中DeepSeek 671B满血版模子在超节点安排,,,,,,,单卡推理吞吐性能2122 Tokens/s,,,,,,,创下海内新纪录。。。。。。
超节点是接纳高速互连手艺将多台效劳器内的AI芯片细密耦合形成的大型算力单位,,,,,,,需要对差别营业场景的资源设置和并发战略无邪设置才华最大限度施展系统性能。。。。。。
本次优化完成了“翼芯”平台和昇腾超节点的对接,,,,,,,针对13项基准性能、6类典范场景,,,,,,,以及5类典范资源设置,,,,,,,开展了推理性能自动化测试与系统级调优。。。。。。“翼芯”平台凭证营业模子,,,,,,,划分设置超节点Prefill池和Decode池的资源数目、推理实例数目和并行战略,,,,,,,通过测试快速反响性能指标并举行实时战略调解,,,,,,,同时配合算子融合替换、KV Cache优化、荟萃通讯优化、效劳调理优化等手段,,,,,,,一直优化P池和D池吞吐性能使其抵达最大平衡。。。。。。
效果批注,,,,,,,面向DeepSeek 671B满血版模子的超节点优化计划,,,,,,,多种场景下单卡吞吐性能较优化前有2.5至4.3倍提升,,,,,,,其中272卡设置(128卡P池、144卡D池)是系统性能最大平衡点,,,,,,,在TTFT为1.28s、TPOT为50ms的效劳质量包管下,,,,,,,系统单卡吞吐抵达2122 Tokens/s,,,,,,,较前期业界最佳优化性能提升9.2%。。。。。。该手艺验证充分彰显了中国凯发·(中国)网站-AG旗舰厅在超节点上的系统优化能力——能凭证客户营业需求无邪设置云上节点资源,,,,,,,提供高性价比推理算力,,,,,,,有用效劳于重大推理、多智能体协一律新场景。。。。。。
未来,,,,,,,中国凯发·(中国)网站-AG旗舰厅将开展更普遍场景、更多类型的超节点形态手艺研究和优化验证,,,,,,,一直推动国产智算基础设施手艺立异。。。。。。