awesome notes

gateway API inference extension

大模型的飞速发展,越来越多的人在Kubernetes上部署大模型推理工作负载。在大模型推理工作负载呈现出来的特征与传统L7的应用完全不同。当前传统的负载均衡算法例如轮训,最小连接,哈希环,优先级等算法都不大适用于AI模型后端。大模型推理的负载均衡策略与模型结构(pd分离,moe等),推理实例的wait queue里请求的个数,kv cache利用率,是否有加载LoRA适配器,prefix p...

rdma overview

当前AI训练中,由于大量的数据发送,使用传统的网络协议的网络包发送都需要通过内核进行发送,就会涉及到数据层从用户态和内核态拷贝,在大模型训练以及推理场景下,可能需要在gpu/npu之间有大量的数据的传输,这样涉及在发送和接收端的大量的内存拷贝,导致收发端大量的资源消耗以及处理延迟。为了更明显的对比rdma与传统的网络,那先来介绍下linux中网络收发包的流程. 网络收发 那么从上图看到,左...