欢迎来到通信人在线![用户登录] [免费注册]

算力网络的算力度量与算力建模要求

浏览:1341  来源:通信人在线  日期:2025-11-07

在算力网络中,算力度量(computing measurement)是指对算力需求和算力资源进行统一的抽象描述,并结合网络性能指标形成算网能力模板,为算力路由、算力管理和算力计费等提供标准统一的度量规则。算力建模(modeling of computing capability)是指对算力相关的信息按照统一的格式进行抽象描述,具体的信息可以是数值型的或者非数值型的。算力度量与建模是算网服务通告、算网感知调度、算力资源管理、算力运营等的重要基础之一。统一的度量标准,统一的描述方式,类似于统一的语言,有助于算力网络的各个网元之间的高效协作。算力网络中的算力度量的目标是将异构资源进行关联和整合,使能多维度资源的统一协同管理,从而面向未来差异化的业务需求,通过统一的算力度量体系和异构计算资源的映射机制,实现算力资源的合理分配和高效调用。

欲具体了解“算力网络”概念的请进入

本文从计算、通信、内存、存储多个维度进行算力资源的建模和评估,以及按照不同的业务类型进行业务需求的建模。 选择这 4 个维度的原因是它们对计算任务的按时完成可能造成的影响较大。不同的计算任务对于计算、通信、内存和存储的需求各不相同,但是一旦某个维度的资源出现瓶颈,将带来较差的用户体验。算力网络的度量与建模应包括算力资源的度量与建模、算力应用需求的度量与建模两部分。

一、算力资源的度量与建模

1、算力资源的度量与建模体系

为了描述算力网络中的服务节点的算力,将从节点的计算、通信、内存和存储能力4个方面来评估。它们的能力描述详见下表1-1-1。除了按照这4个方面评估,还需按照多级指标的方式来构建算力资源的度量体系(如下图1-1所示,它源自于算力网络的分层架构)。这些指标(共分一级、二级和三级)支持按需提供给其他的算力网络节点,例如策略决策节点,请详见下表1-1-2。选择指标分级的原因是希望从多个角度提供算力节点的资源情况描述。算力资源的三级抽象描述中,底层的描述更多的关注算力网络服务节点的硬件资源,上层的描述更多的关注算力网络服务节点的服务能力。

1-1-1:计算、通信、内存和存储的能力描述

1-1:算力资源抽象描述的四面三级度量体系

1-1-2:算力资源度量体系的三级指标描述

欲详细了解算力网络总体架构的请进入

2、异构硬件算力度量与建模

1)计算能力:异构硬件算力度量与建模主要指面对网络中分布的各种异构计算资源,有必要实现计算能力资源的统一抽象表示。下表1-2-1-1 中描述 CPUGPUFPGA 等这些计算单元的常见参数的建模,这些参数是算力度量与建模的一部分,必要时可以通告给其他的算力网络节点。表中列举的是一个较全面的信息建模,不同的算力业务或者算力用户可以按需挑选指定参数来构建定制化的算力信息模型。除了上述的 CPUGPUFPGA 相关参数,其他的芯片种类还包括但不限于NPUDSAAS1C 等。异构硬件的算力度量和建模中,一方面可以提供上述的厂家的性能参数;另一方面,也可以提供常用的基准测试程序的测试值。

1-2-1-1CPUGPUFPGA的参数建模

主流计算芯片主要涉及的计算类型包括整数计算、浮点计算、哈希计算。这里从整数计算速率、浮点计算速率、哈希计算速率三个方面对计算能力进行描述,详见表1-2-1-2。表中的类型,指的是这些评估指标的输出的值的类型。其中,整数计算速率、浮点计算速率、哈希计算速率的含义详见下表1-2-1-3(包括了一些常见的哈希计算单位)。

1-2-1-2:计算能力评估指标

1-2-1-3:整数计算速率、浮点计算速率、哈希计算速率的含义

2)通信能力:根据网络带宽对节点通信能力进行建模,网络带宽指节点在特定数据包长下,单位时间(1秒)内能发送/接收的最大数据量,表示节点理论上最高传送速度,其建模详见表1-2-2。对节点的通信能力的评估,主要参考节点的外部接口带宽,即节点连接到外部网络的带宽。单节点的带宽越大,在节点出口处越不容易拥塞。

1-2-2:通信能力评估指标

此通信能力并不是指网络的端到端的性能,而是节点的潜在通信能力。在算力网络中,端到端的时延指标也是一个重要的影响业务体验的因素。这个因素需要综合考虑服务节点和用户的网络位置,因此主要体现在网络信息侧,可以使用已有的网络 OAM 机制得到。

3)内存能力:可从内存容量、内存带宽和内存访问延时三个方面对内存能力进行建模,具体详见下表1-2-3

1-2-3:内存能力评估指标

4)存储能力:可从存储容量、存储带宽、每秒读写操作次数(IOPS)这几个方面对存储能力进行建模,请详见下表1-2-4-1IOPS 指系统在单位时间内能处理的最大 IO 次数,一般以小 IO 为主要测试类型。在保证系统环境配置基本相同情况下,测量以下四项分项指标和一项综合指标,请详见下表1-2-4-2

1-2-4-1:存储能力评估指标

1-2-4-2IOPS测量指标

3、节点服务能力度量与建模

算力网络中,算力路由模块或者算网编排管理模块中的决策机制需要帮助用户选择一个合适的服务节点。因此,算力服务节点能力的度量是本文的一个重点,需要从多个角度对其进行描述。对于节点能力的度量,主要考虑了算力相关的能力,针对不同的业务,后续还可以综合考虑其他的影响因素,例如能耗、节点可信程度等信息。

前述只是从每个异构计算单元的角度给出度量参数,提供的是能力相关的信息。从节点角度,还需要给出该节点的各计算单元的数量信息,从而给出节点各个维度的抽象度量,例如在 CPU 维度,对于不同型号的 CPU,给出每种型号 CPU 具备的数量。基准测试评价节点性能时,也是在一定数量的计算单元下给出的测试数据。为了准确表征算力服务节点面向真实业务可获得的算力,算力网络中还可以综合考虑芯片、存储、网络和平台软件各层协调所呈现出的综合业务性能,即有效算力。有效算力全面覆盖软硬件全栈综合业务性能,反映出算力服务节点在特定作业上用户可获得的实际计算能力。

1)节点能力的抽象描述:在异构集群中,节点性能存在很大差异,评价节点的性能非常具有挑战性。通过厂家的性能参数信息或者是基准测试程序,可以得到多个维度的算力度量值。但是在算力度量的具体使用中,还需要一个综合的算力度量值,来对服务节点的计算、通信、内存、存储资源进行整体评估。上述中介绍了可以使用基准测试来评价节点的性能,但是不同的基准测试对节点评价的角度不尽相同。为了充分利用不同基准测试的评价结果,本文中使用了一种基于PageRank 的节点性能评价算法。在相关的流程中,首先对每个节点使用主流基准测试进行评价,然后采用 PageRank 算法处理每个基准测试的执行结果,从而得到节点的综合性能。PageRank 算法具体的处理流程请详见YD/T 6044-2024《算力网络 算力度量与算力建模技术要求》的附录 B;它的附录 D 还提出了有效算力的评价方法。

2)算力服务节点的能力分级:算力网络中,不同的业务有着不同的算力需求。算力服务节点的服务能力分级信息,也可以作为算力服务度量指标的一部分,传递到算力网络中,辅助业务流量的策略决策。从现有业务上看,超算类应用、大型渲染类业务对算力的需求是最高的,可达到 P 级的算力需求;其次是 AI 训练类应用,这类应用根据算法的不同以及训练数据的类型和大小所需的算力从 T 级到 P 级不等;再者是 AI 推理类业务,其大多部署在终端边缘,对算力的需求稍微减弱,大致在几百 G T 级别不等。因此根据所需算力的大小,针对目前应用的算力需求,将算力划分为 4 级,请详见下表1-3-2

1-3-2:算力分级

3)其他节点服务能力:除了算力相关的节点能力参数,算力网络的决策还可以参考其他的节点能力信息,例如节点的安全等级信息,节能相关的能效信息等。

欲详细了解数据中心安全等级和节能相关的能效等级的请进入

4、业务的支撑能力度量与建模

1)通用业务的支撑能力:业务的支撑能力指的是服务节点上的业务处理能力,节点的业务处理能力与具体业务类型强相关,也可以从计算、网络、内存、存储四个角度进行评估。除此之外,节点的业务处理能力,也可以称为服务性算力,还可以从个性化算力的维度进行描述,例如音/视频/图像编解码能力(软/硬)、DPU(数据处理单元)/IPU 异构加速能力等。其他的业务能力指标还包括,针对特定的业务,服务节点能支持的会话数量、服务节点的预估业务平均完成时间等信息。节点的业务处理能力也可以从有效算力的维度进行描述。

2)专用业务的支撑能力:按照部署场景,算力服务节点的部署可以分为通用部署算力与专用部署算力两类。通用部署算力支持多种应用,可以用上述通用基础算力进行度量,并利用 CPU 使用率和 GPU 使用率等动态指标对当前可用算力进行度量。专用部署算力针对特定的应用需求,可以用处理典型的负载能力来衡量。典型专用部署算力度量方式如下表1-4-2所描述。

1-4-2:典型专用部署算力度量方式描述

5、算力网络节点动态指标的度量与建模

前述中描述的大部分是相对静态的评价指标。在实时性要求较高的算力网络流量调度决策中,动态的指标更具有参考意义。例如在业务能力方面,相关的动态指标包括节点上当前接入的特定业务的会话数量,以及还可以接入的会话数量、节点的业务繁忙状态等。其他动态指标还可以包括节点上的CPU/GPU/内存的利用率等信息。这些动态指标的发送方式和刷新方式可以与静态指标不同,具体建模详见下表1-5

1-5:节点动态指标度量与建模

二、算力应用需求的度量与建模

算力应用需求可以分为复杂业务需求和简单业务需求。例如智能公交安全行驶的复杂业务需求可分解为多种子业务需求,其中每个子业务通过不同链路进行传输并分配给具有不同服务能力的多接入边缘计算(MEC)。每种子业务对计算、通信、存储及内存等有不同的需求,可以从以上多个维度对业务进行度量。其中,计算需求通常以 GFLOPS/GFLOPs 为度量单位、通信能力需求通常以 Mbps/Gbps 为单位、存储能力以及内存能力需求通常以 MB 为单位。计算需求既可以包含以 GFLOPS 为单位的计算能力需求,也可以包含以 GFLOPs 为单位的计算量需求。计算量需求和计算能力需求的一个简单的换算关系如下:根据业务需要的计算量和容忍的最大时延,可以计算出业务容忍的计算能力的临界值,业务的实际计算能力需求应大于此临界值。

算力应用需求的度量与建模与算力资源的业务支撑能力的度量与建模高度相关,只是描述角度有区别,一个是从资源侧描述业务的支撑能力,一个是从需求侧描述业务的算力需求。除了算力侧的需求,算力应用也可以包括网络侧的需求,一个示例性的算力业务需求指标描述详见下表2

2 业务需求指标

欲进一步了解全国一体化算力网络国家枢纽节点构建的请进入

附录
百度云服务器
© 2004-2025 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站