波士顿大学博士候选人Fatih Acun在数据中心的创新澳门威尼斯人注册网站研究

随着人工智能和超级计算工作负载的持续增长,数据中心正在消耗更多的电力,给电网带来了巨大的压力。这种需求的激增创造了对创新解决方案的迫切需求,以将大型数据中心与电网集成。

Fatih Acun

三年级博士生Fatih Acun正在探索优化数据中心电源管理和整合需求响应参与的方法,以努力解决这一问题。这包括一个鼓励客户在高峰时段减少或转移用电的计划,以换取经济奖励,使他们成为他所说的“灵活的电力消费者”。Acun的澳门威尼斯人注册网站研究有助于稳定电网,以实现数据中心和电网的可持续增长。在2024年11月,Acun在SC24可持续超级计算研讨会上展示了这一澳门威尼斯人注册GPU(图形处理单元,人工智能处理中不可或缺的一部分)功率上限的开创性澳门威尼斯人注册网站研究。

CISE采访了Acun,了解了更多澳门威尼斯人注册电网和数据中心交叉问题的重要性,他对实现可持续增长的灵活性和稳定性的澳门威尼斯人注册网站研究,以及他的澳门威尼斯人注册网站研究历程。

问:GPU功率上限的工作让你兴奋的是什么?你为什么想澳门威尼斯人注册网站研究这个问题?

答:gpu是数据中心中最耗电的硬件组件,控制其功耗意味着您可以控制数据中心很大一部分功耗。GPU功率封顶是一种限制GPU功耗的方法,它会降低应用程序的性能。由于性能是大型计算系统的主要关注点,因此在对生产系统应用功率封顶之前,我们需要仔细分析功率封顶对应用程序性能的影响。

问:请介绍一下您在SC24可持续超级计算研讨会上发表的澳门威尼斯人注册网站研究报告,《MILC的功耗和GPU功率上限分析》。

答:MILC (MIMD Lattice Computation)是一种被广泛使用的超级计算应用程序,许多用户提交了具有大量节点分配的MILC作业。功耗行为可以根据MILC的应用程序类型、输入大小和并行并发性而变化。我们对这些配置的各种组合进行了分析,并提出了我们对GPU功耗的见解。然后,我们分析了不同功率上限下的应用程序性能,发现对于具有可接受的性能减速的MILC应用程序来说,存在显著的节能机会。

问:你在国家能源澳门威尼斯人注册网站研究科学计算中心实习的经历如何?

A: NERSC为暑期实习生提供了一个非常好的项目。他们组织了许多研讨会和活动。我也有机会与我的导师赵正吉博士密切合作。我认为这对博士生来说是一个很好的机会,可以在他们的澳门威尼斯人注册网站研究中取得进步,并通过使用顶级超级计算机获得一些经验。当提交分配超过1000个gpu的作业时,我对其规模感到惊讶。

问:在NERSC工作和在学术界工作有什么不同?

A:其实没有太大的区别,因为它是一个澳门威尼斯人注册网站研究中心。然而,他们仍然有更严格的目标,因为他们管理一个生产系统,他们需要处理系统和用户的操作需求。在学术界,我认为人们在澳门威尼斯人注册网站研究想法方面有更大的灵活性。

问:澳门威尼斯人注册你的澳门威尼斯人注册网站研究,你想让人们知道的是什么?

答:由于数据中心的功耗以非常快的速度增长,这类澳门威尼斯人注册网站研究的影响变得非常明显和重要。即使是能源效率和可持续性方面的微小改进,也会对可持续计算和电网产生重大的积极影响。

法提赫·阿昆于2021年获得土耳其安卡拉中东技术大学(METU)硕士学位。在那里,他使用深度学习方法进行交通预测。现为波士顿大学计算机工程专业三年级博士澳门威尼斯人注册网站研究生,师从CISE主任、Ayse Coskun教授(ECE, SE)。2024年,Acun被选为哈里里澳门威尼斯人注册网站研究所的澳门威尼斯人注册网站研究生澳门威尼斯人注册网站研究员。此外,他还是国家能源科学计算中心的澳门威尼斯人注册网站研究实习生,在那里他澳门威尼斯人注册网站研究了GPU工作负载的功率上限。