Kubernetes dynamic resource allocation
社区1.30为了解决之前dra框架的调度性能问题以及很难与cluster autoscaler协同的问题,引入了一个新的api以及sturctured parameters,来解耦scheduler和device controller的调用关系 引入的新api可以有以下几个增强: network-attached device。 在多个容器或者多个pod之间共享设备。之前的devi...
社区1.30为了解决之前dra框架的调度性能问题以及很难与cluster autoscaler协同的问题,引入了一个新的api以及sturctured parameters,来解耦scheduler和device controller的调用关系 引入的新api可以有以下几个增强: network-attached device。 在多个容器或者多个pod之间共享设备。之前的devi...
当前AI训练中,由于大量的数据发送,使用传统的网络协议的网络包发送都需要通过内核进行发送,就会涉及到数据层从用户态和内核态拷贝,在大模型训练以及推理场景下,可能需要在gpu/npu之间有大量的数据的传输,这样涉及在发送和接收端的大量的内存拷贝,导致收发端大量的资源消耗以及处理延迟。为了更明显的对比rdma与传统的网络,那先来介绍下linux中网络收发包的流程. 网络收发 那么从上图看到,左...