周庆宇把他们引到会议区,宋晓曼已经沏好了茶。
肖宿没有坐,目光越过所有人,直接落在了那三排机柜上。
黑色的机柜靠墙排列,指示灯像繁星一样明灭闪烁。
散热风扇的嗡鸣声低沉而持续,像某种巨大生物的呼吸。
透过玻璃柜门,可以看到里面插满了一块块计算卡,线缆整齐地綑扎成束,沿著走线架延伸到天花板上的桥架里。
这是京大高性能计算中心的家底。
三台管理节点,四十八个计算节点,每个节点八张gpu加速卡,总共三百八十四张卡。另外还有两组专门做数据存储的磁碟阵列,和一个从去年才开始搭建的液冷实验集群。
这些设备加在一起,峰值算力大约是两点八个pflops。
这个数字放在国內高校里算得上第一梯队,但跟深度求索那种动輒上万张h100的商业公司比起来,差了一个数量级。
不过肖宿今天来,关心的不是算力总量。
他关心的是算力被使用的方式。
周庆宇站在机柜旁边,开始介绍情况。
“我们目前的调度系统用的是slurm框架,搭配自主研发的能耗管理模块。调度策略上,我们採用的是改进后的加权公平队列算法,结合动態电压频率调节来平衡负载,具体的资源分配逻辑是……”
他说了大概三分钟。
肖宿一直没说话,只是安静地听著,目光在机柜的指示灯和旁边监控屏幕上的实时负载曲线之间来回移动。
等周庆宇说完,肖宿才缓缓开口。。
“你们现在的调度策略,是针对高维特徵空间设计的吧?”
周庆宇愣了一下,隨即点头:
“对,目前主流的ai训练任务,特徵维度都很高,所以我们默认按照高维张量运算的负载模型来分配资源。
这个策略是我们去年在sc会议上发表的,核心思想是把高维张量拆分成多个低维子块,然后分配到不同节点上做並行计算。
业內评价还不错,有几个学校还专门来我们这儿取过经。”
肖宿站在监控屏幕前,目光落在那条负载曲线上,看了一会儿。
实验室里的人都没有出声。
周庆宇站在他侧后方,手里还攥著刚才介绍系统时用来指屏幕的笔,笔帽不知道什么时候被他在指尖转鬆了,发出细微的咔咔声。
他自己都没注意到。
所有人的注意力都在肖宿身上。
“周老师,你们的调度器在处理通用ai训练任务的时候,节点利用率大概是多少?”
周庆宇微微鬆了口气,这个问题他答得上来。
“通用任务的话,gpu平均利用率在百分之七十五到八十五之间,峰值能到九十以上。”
他说这话的时候语气里带著一点不明显的底气。
这个数字在国內高校的算力中心里確实算漂亮的,去年sc会议的论文里专门有一段就是分析这个利用率数据的。
肖宿点了点头,没有评价这个数字是高还是低。