CANN/GE LLM-DataDist PullKvCache接口-二趣网

PullKvCache

【免费下载链接】geGE（Graph Engine）是面向昇腾的图编译器和执行器，提供了计算图优化、多流并行、内存复用和模型下沉等技术手段，加速模型执行效率，减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力，并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

产品支持情况

产品	是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 推理系列产品	√
Atlas A2 训练系列产品	x

函数功能

从远端节点拉取Cache到本地Cache，仅当角色为Decoder时可调用。

函数原型

Status PullKvCache(const CacheIndex &src_cache_index, const Cache &dst_cache, uint32_t batch_index = 0U, int64_t size = -1, const KvCacheExtParam &ext_param = {})

参数说明

参数名称	输入/输出	取值说明
src_cache_index	输入	远端源Cache的索引。
dst_cache	输入	本地目的Cache。
batch_index	输入	本地目的batch的下标。
size	输入	设置为>0的整数，表示要拉取的大小。或设置为-1，表示完整拉取。默认为-1。
ext_param	输入	当前支持ext_param中src_layer_range的sencond与first的差值和dst_layer_range的sencond与first的差值一致。src_layer_range和dst_layer_range的first和second默认值都是-1，表示全部的层。取值范围都是[0, 最大可用层索引]，且first小于等于second。最大可用层索引值的计算公式如下。 (CacheDesc::num_tensors / KvCacheExtParam::tensor_num_per_layer) - 1 当前支持tensor_num_per_layer取值范围是[1, 当前cache的tensor总数]，默认值为2。当src_layer_range或dst_layer_range取值为非默认值时， tensor_num_per_layer可以保持默认值，也可以输入其他值，输入其他值的时，tensor_num_per_layer的取值还需要被当前cache的tensor总数整除。

调用示例

CacheIndex cache_index; cache_index.cluster_id = 0; cache_index.cache_id = cached_tensors.cache_id; cache_index.batch_index = 0; Status ret = llm_datadist.PullKvCache(cache_index, cache)

返回值

LLM_SUCCESS：成功
LLM_PARAM_INVALID：参数错误
LLM_NOT_YET_LINK：与远端cluster没有建链
LLM_TIMEOUT：拉取超时
LLM_KV_CACHE_NOT_EXIST：本地或远端KV Cache不存在
其他：失败

约束说明

该接口调用之前，需要先调用Initialize接口完成初始化。dst_cache必须为AllocateCache接口申请出的Cache。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析

PullKvCache

产品支持情况

函数功能

函数原型

参数说明

调用示例

返回值

约束说明

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

PullKvCache

产品支持情况

函数功能

函数原型

参数说明

调用示例

返回值

约束说明

热门文章

文章分类

标签云

相关文章

AMD Ryzen SMU调试工具：深度掌控处理器性能的完整指南

论时空几何的永恒性与认知升维的路径——基于块状宇宙理论与碳硅共轭的生命形态演化假说（世毫九实验室原创研究）

QMCDecode终极指南：3分钟解锁QQ音乐加密音频，Mac用户的格式自由方案

需要专业的网站建设服务？