为期四周的机器学习研讨会,2024年秋季

CDS机器学习研讨会由Aldo Pacchiano助理教授和张学洲教授发起,由计算与数据科学学院主办,汇集了机器学习领域的顶尖学者,深入探讨机器学习领域的前沿发展和基础技术。通过联合来自不同技术学科的专家,包括算法设计、模型架构和优化技术,研讨会旨在阐明核心机器学习方法的最新进展和挑战。


Kiante Brantley, Assistant Professor, Harvard University过去的会谈将于2024年秋季举行

法学硕士的有效策略优化技术

Kiante Brantley,哈佛大学助理教授

日期:12月6日,星期五,上午10点

地点:CDS 1646

后训练对于增强大型语言模型(LLM)能力并使其与人类偏好保持一致至关重要。最广泛使用的训练后技术之一是基于人类反馈的强化学习(RLHF)。在这次演讲中,我将首先讨论将RL应用于LLM培训的挑战。接下来,我将介绍RL算法,通过利用潜在问题的关键属性来解决这些挑战。此外,我将提出一种方法,将llm的RL策略优化过程简化为相对奖励回归。最后,我将扩展这个想法来开发一种策略优化技术,用于从人类反馈中进行多回合强化学习。

本文作者是哈佛大学肯普纳澳门威尼斯人注册网站研究所和工程与应用科学学院(SEAS)的助理教授。他在马里兰大学帕克分校(University of Maryland College Park)完成了计算机科学博士学位,师从Hal daum III博士。毕业后,他在康奈尔大学完成了博士后澳门威尼斯人注册网站研究,与Thorsten Joachims一起工作。他的澳门威尼斯人注册网站研究重点是机器学习和交互式决策的交叉问题,目标是提高基础模型的决策能力。他与同事们一起获得了多个奖项,包括在ICLR 2023和ICLR 2019上的聚光灯演讲。他还获得了多个奖学金,包括NSF LSAMP BD奖学金和NSF CI澳门威尼斯人注册网站研究员博士后奖学金。在业余时间,他喜欢运动;他目前最喜欢的运动是举重。


综合潜在结果和因果混合可识别性

Bijan Mazaheri, Postdoctoral Associate, Broad Institute of MIT and Harvard University; Incoming Assistnat Professor, DartmouthBijan Mazaheri,麻省理工学院博德澳门威尼斯人注册网站研究所和哈佛大学博士后;达特茅斯学院即将上任的助理教授

日期:11月22日(星期五)下午2点

地点:CDS 1646

来自多个总体、子组或来源的异质数据可以表示为“混合模型”,其中单个潜在类别影响所有观察到的协变量。异质性可以通过根据不同的相似性概念分组群体在多个层次上解决。这次演讲由Bijan Mazaheri博士介绍,他提出了对系统干预或扰动的因果反应进行分组。Mazaheri将证明这个定义不同于标准概念,例如相似的协变量值(例如聚类)或协变量之间的相似相关性(例如高斯混合模型)。为了解决这个问题,Mazaheri将描述使用可观测数据的高阶多线性矩从反事实分布中“综合”采样。为了理解这些“因果混合”如何与更经典的概念相适应,将开发一个混合可识别性的层次结构。考虑到这种层次结构,Mazaheri将讨论因果建模作为数据科学指导框架的作用。

Bijan Mazaheri博士是麻省理工学院和哈佛大学布罗德澳门威尼斯人注册网站研究所的埃里克和温迪施密特博士后澳门威尼斯人注册网站研究员。Bijan对整合来自多个地方、主题和模式的数据和知识的任务非常感兴趣。在加入Broad之前,Bijan是加州理工学院的NSF澳门威尼斯人注册网站研究生澳门威尼斯人注册网站研究员和亚马逊ai4科学澳门威尼斯人注册网站研究员,导师是Shuki Bruck和Leonard Schulman。Bijan曾获得剑桥大学赫歇尔·史密斯奖学金,并获得威廉姆斯学院文学学士学位。毕扬将于明年1月在达特茅斯工程学院(Dartmouth Engineering)担任助理教授,并招收博士生。


Han Shao, Postdoctoral Associate, Harvard University; Incoming Assistant Professor, UMD

从战略数据源中学习

邵寒,哈佛大学博士后;马里兰大学新任助理教授

日期:11月8日(星期五)上午11点

地点:CDS 1101

摘要:与标准分类任务相比,策略分类涉及智能体策略性地修改其特征以获得有利的预测。例如,给定一个基于信用评分确定贷款批准的分类器,申请人可能会打开或关闭他们的信用卡和银行账户来欺骗分类器。学习目标是找到一个对策略操纵具有鲁棒性的分类器。在战略分类中,根据已知信息的内容和时间,探讨了各种设置。在这次演讲中,Shao将重点讨论一个基本问题:战略分类和标准学习之间的可学习性差距。这次演讲是基于与Avrim Blum, Omar Montasser, Lee Cohen, Yishay Mansour和Shay Moran的合作(arxiv.org/abs/2305.16501发表于NeurIPS'23, arxiv.org/abs/2402.19303发表于COLT'24)。

简介:韩绍是哈佛大学CMSA博士后,由Cynthia Dwork和Ariel Procaccia主持。她将于2025年秋季加入马里兰大学计算机科学系,担任助理教授。她在TTIC完成了博士学位,在那里她的导师是Avrim Blum。她的澳门威尼斯人注册网站研究重点是机器学习的理论基础,特别是在学习过程中由人类社会和对抗行为引起的基本问题。她感兴趣的是了解这些行为如何影响机器学习系统,并开发方法来提高准确性和鲁棒性。此外,她对获得澳门威尼斯人注册对抗性稳健性的经验观察的理论理解感兴趣。


战略环境中的学习:从校准代理到一般信息不对称

Chara Podimata,麻省理工学院助理教授

日期:11月15日(星期五)下午12点

地点:CDS 1646

在这次演讲中,Podimata将讨论委托-代理博弈中的学习,在这种博弈中,委托人和代理人对彼此选择的行为的了解存在信息不对称。他们将介绍标准Stackelberg游戏(SGs)框架的概括:校准Stackelberg游戏(csg)。在csg中,委托人反复与代理交互(与标准SGs相反),代理不能直接访问委托人的行为,而是对校准后的预测做出最佳响应。Podimata将表明,在csg中,在有限和连续设置中,委托人可以获得收敛于游戏的最优Stackelberg值的效用(即他们可以达到的价值,代理一直知道委托人的策略),并且没有更高的效用可以实现。最后,他们将讨论一个元问题:当在战略环境中学习时,代理人能否克服其偏好的不确定性,以实现他们本可以在没有任何不确定性的情况下实现的结果?它们能仅仅通过相互作用来做到这一点吗?

Chara Podimata是麻省理工学院运筹学和统计学1942年的职业发展教授。她的澳门威尼斯人注册网站研究主要集中在激励意识机器学习和更广泛的社会计算,从理论和实践的角度来看。她的澳门威尼斯人注册网站研究由亚马逊和麦克阿瑟基金会通过x-grant提供支持。她在哈佛获得博士学位。在她的空闲时间,她跑步和花时间与她的狗,特拉。


2023年秋季/往届讲者