12月4日由克里斯汀·格劳曼教授主持的杰出计算机科学研讨会

: nashapat
2024年11月18日

题目：第一人称视频理解

主讲人：克里斯汀·格劳曼教授，德克萨斯大学奥斯汀分校

时间：2024年12月4日星期三上午11点

其中：CDS 950

第一人称或“自我中心”感知需要理解流到可穿戴相机的视频。以自我为中心的视角为相机佩戴者的注意力、目标和互动提供了一个特殊的窗口，使其成为未来增强现实和机器人学习的一个令人兴奋的途径。本次演讲将介绍我们的人工智能澳门威尼斯人注册网站研究小组最近在多模态感知方面的探索，例如将文本语义注入强大视频表示的视觉语言嵌入，可以预测人类行为声音或增强用户在繁忙场所听力的视听视频模型，以及可以促进从“如何”视频中学习新技能的模型。我还将概述我们如何通过称为Ego4D和ego - exo4d的大规模开源数据集为更广泛的社区推进自我中心感知的前沿-多年，多机构努力捕捉世界各地人们的日常生活和技能活动。

克里斯汀·格劳曼是德克萨斯大学奥斯汀分校计算机科学系教授，也是Meta基础人工智能澳门威尼斯人注册网站研究实验室（FAIR）的澳门威尼斯人注册网站研究主任。她在计算机视觉和机器学习方面的澳门威尼斯人注册网站研究重点是视觉识别、视频和具身感知。在2007年加入德克萨斯大学奥斯汀分校之前，她在麻省理工学院获得博士学位。她是IEEE Fellow， AAAS Fellow, AAAI Fellow, Sloan Fellow，以及2013年计算机与思想奖的获得者。她和她的合作者在计算机视觉领域获得了多项最佳论文奖，包括2011年的马尔奖和2017年的亥姆霍兹奖（时间测试奖）。她曾担任PAMI的副主编和CVPR 2015、NeurIPS 2018和ICCV 2023的项目主席。http://www.cs.utexas.edu/~grauman/

查看所有帖子