从具身感知到具身认知——多模态大模型驱动的具身智能演进

重置

题目（Title）：

主讲人（Speaker）：

徐凯

开始时间（Start Time）：

2024-12-12 10:00

结束时间（End Time）：

2024-12-12 10:30

报告地点（Place）：

1A200

主办单位（Organization）：

信息科学与技术学院

协办单位(Co-organizer)：

简介（Brief Introduction）：

在交互过程中主动感知环境是具身智能系统的重要特性。过去几年，三维感知朝着在线化和主动化快速发展，主动场景重建和主动语义理解逐渐成熟，为三维具身交互提供了良好支撑。但具身感知仍面临诸多局限，例如无法应对开放环境，缺乏认知过程建模，难以实现通用、泛化的高层次任务规划。多模态大模型具备强大的常识知识推理能力、多模态信息融合能力、长程任务规划能力，为具身智能由感知到认知的跃迁提供了可能，例如视觉基础模型驱动的开放集语义理解，视觉-语言-动作模型驱动的交互认知过程建模等。面向高层次任务，有望实现主动、持续、长程的感知与认知，进而实现具身智能的持续学习和演进。本次报告汇报我们在相关方面的研究进展，包括多模态大模型驱动的开放词汇在线语义分割和主动场景图构建、基于认知过程建模的物体目标导航、基于环境认知推理的室内物品整理等。

徐凯，国防科技大学教授。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作，提出面向复杂三维数据的结构化感知、建模与交互理论方法系统。发表TOG/TPAMI/TVCG等A类论文100余篇。担任图形领域顶级国际期刊ACM Transactions on Graphics、IEEE Transactions on Visualization and Computer Graphics的编委， Computational Visual Media的领域执行编委。多次担任领域内重要国际国内会议的大会主席和程序主席。担任中国图象图形学会三维视觉专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。曾获湖南省自然科学一等奖2项（排名1和3）、中国计算机学会自然科学一等奖2项（排名1和3）。

活动信息