上海科技大学智能感知与人机协同教育部重点实验室专注于新一代机器智能与人类协同发展及相互增强技术,致力于建设智能人机协同与交互原创研究基地。本年度,实验室9项研究成果成功入选神经信息处理系统大会(Conference on Neural Information Processing Systems,NeurIPS 2024),研究成果涵盖3D场景理解、视觉-语言基石模型、深度平衡模型、生物成像重建等前沿方向。今年大会共收到15671篇有效论文投稿,录取率为25.8%。大会于12月9日在加拿大温哥华召开。
1. 使用八叉树查询进行的高效、多粒度占用预测方法
OctreeOcc: Efficient and Multi-Granularity Occupancy Prediction Using Octree Queries
3D场景理解中的占用预测对自动驾驶、机器人导航等领域至关重要。然而,传统方法依赖于规则网格表示,计算成本高昂,且难以捕捉小物体的细节。本研究提出了一种创新的 3D 占用预测框架OctreeOcc。实验表明,OctreeOcc 在预测性能上超越现有方法,同时将计算成本降低 15%-24%。为高效的 3D 场景细粒度理解提供了新方向。
上海科技大学信息学院科研助理陆宇航为论文第一作者,上海人工智能实验室王泰研究员与上海科技大学马月昕教授为共同通讯作者。
代码链接: https://github.com/4DVLab/OctreeOcc
论文链接: https://arxiv.org/abs/2312.03774
2. 泛化还是检测?探索多重分布变化下的鲁棒语义分割
Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts
开放世界场景往往同时存在未知物体和未知领域,一个理想的分割模型需要具备检测未知物体(Out-of-Distribution Detection, OOD)并泛化到未知领域(Domain Generalization, DG)的能力。针对这一挑战,研究人员设计了一种新颖的生成式数据增强方法,用以产生同时包含新物体和新领域的图片。同时提出了一种新的训练策略,充分利用这些包含多种分布变化的生成图片。在具有语义和领域变化的所有基准测试中,该方法实现了未知物体检测和领域泛化任务的最先进性能。
上海科技大学信息学院2021级硕士生郜之桐为论文第一作者,何旭明教授为通讯作者,2020级本科生李炳楠也参与了研究工作。
代码链接: https://github.com/gaozhitong/MultiShiftSeg
论文链接: http://arxiv.org/abs/2411.03829
3. 基于视觉-语言基石模型的联邦学习理论与算法
Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method
随着像CLIP这样的大型视觉-语言基石模型的发展,基于这些基石模型的联邦学习正受到越来越多的关注。提示词微调的联邦学习由于其通信开销较小和计算资源消耗较低,已成为基于预训练基石模型的联邦学习中的主流范式。然而,提示词微调方法在理论分析方面仍缺乏深入探讨。本研究基于特征动力学提出了一种针对联邦提示词微调的理论分析框架。实验展示了“提示词组合”算法相较于单一提示词的性能优势,并通过更多的消融实验验证了所提出分析框架的有效性。
上海科技大学是该成果的第一完成单位,信息学院2023级研究生潘比康为第一作者,石野教授为通讯作者,论文合作者RIKEN中心黄伟博士为论文共同通讯作者。
论文链接:https://www.arxiv.org/abs/2409.19610
代码链接:https://github.com/PanBikang/PromptFolio.git
4. 从神经网络崩塌视角理解深度平衡模型的表征能力
Understanding Representation of Deep Equilibrium Models from Neural Collapse Perspective
近年来,DEQ作为一种典型的隐式神经网络结构,凭借其内存高效性和强大的表现力,得到了广泛的关注。本研究探讨了深度平衡模型(Deep Equilibrium Model,DEQ)的表现,采用神经网络崩塌(Neural Collapse,NC)的视角对其进行系统分析。首次将 NC 分析引入 DEQ,并系统性地比较了 DEQ 与显式神经网络在不同条件下的表现,证明了 DEQ 在不平衡数据处理中具备显著优势。这些研究为 DEQ 的应用提供了新的理论支持,也为进一步探索隐式神经网络的性能提供了基础。
上海科技大学是该成果的第一完成单位,信息学院2021级研究生孙海翔为第一作者,石野教授为论文的通讯作者。
论文链接:https://arxiv.org/abs/2410.23391
5. Q加权变分策略优化:基于扩散模型的强化学习
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization
实践证明,利用扩散策略可以显著提高强化学习算法在连续控制任务中的性能,克服单模态策略(如高斯策略)的局限性,以此来为智能体提供更强的探索能力。由于缺乏样本标签,扩散模型的训练目标无法用于在线强化学习中直接进行优化。为了克服这个问题,本研究提出了一种基于扩散模型的在线强化学习算法:Q加权变分策略优化 (QVPO)。QVPO算法充分利用了扩散策略的探索能力和多模态性,防止强化学习策略收敛到次优解。MuJoCo仿真环境的连续控制任务基准上的全面测试表明,QVPO算法在累积奖励和样本效率方面都优于之前的其他算法。
上海科技大学是该成果的第一完成单位,信息学院2021级研究生丁枢桐为第一作者,石野教授为论文的通讯作者,论文合作者还有上科大信息学院虞晶怡教授、汪婧雅教授、任侃教授和上海交通大学的张伟楠教授。
论文链接:https://arxiv.org/pdf/2405.16173
代码链接:https://dingsht.tech/qvpo-webpage/
6. 迈向时间序列编辑
Towards Editing Time Series
时间序列生成是时间序列分析的一项基础且重要的任务,其目标主要用来解决现实数据的稀疏性、隐私敏感性等问题。本研究首次提出了一个全新的时间序列生成任务范式——时间序列编辑。该方法能够在给定样本的基础上,针对特定需求灵活修改属性(如心率数据中的异常值、气象数据中的特定波动),这为生成更贴合实际需求的数据提供了可能。本研究还创新推动了时间序列生成模型从“生成数据”走向“编辑数据”的精细化操作。这不仅拓展了生成模型的应用场景,也为更高效的时间序列生成方法提供了思路。
美国伊利诺伊大学厄巴纳-香槟分校的博士生景宝宇与上海科技大学信息学院2024级硕士生顾书齐为论文共同第一作者,上海科技大学信息学院任侃教授为通讯作者,上海科技大学2024级研究生陈天宇与2022级本科生杨志禹也参与了研究工作。
项目主页: https://seqml.github.io/tse/
7. 用于生成式3D基础模型的神经坐标场模型
MeshXL: Neural Coordinate Field for Generative 3D Foundation Models MeshXL
3D数据的多边形网格表示因其灵活性、快速渲染速度和存储效率,在各类应用中被广泛采用。然而,由于其非结构化的图表示,直接生成高保真度的3D网格具有挑战性。本研究提出了一种神经坐标场(NeurCF),结合显式坐标表示和隐式神经嵌入,为大规模序列化网格建模提供了一种简单而有效的表示方法。基于此,研究人员开发了MeshXL,这是一系列生成式预训练自回归模型,能够生成高质量的3D网格,并可作为各种下游应用的基础模型。
上海科技大学信息学院已毕业博士陈欣为论文的项目负责人,虞晶怡教授课题组2019级博士生庞安琪也参与了研究工作。
代码链接: https://github.com/OpenMeshLab/MeshXL
论文链接: https://arxiv.org/abs/2405.20853
项目主页: https://meshxl.github.io/
8. 基于物理信息的生成式冷冻电镜
Physics-Informed Generative Cryo-Electron Microscopy
单颗粒冷冻电子显微镜(cryo-EM)在解析蛋白质的近原子分辨率三维结构方面至关重要。由于缺乏高质量的标注数据集进行训练,目前的AI冷冻电镜模型性能仍然受到限制。本研究提出了一种基于物理信息的生成冷冻电子显微镜(CryoGEM)模型,首次将基于物理的cryo-EM模拟与生成的无配对噪声转换相结合,从而生成具有逼真噪声的物理正确的合成cryo-EM数据集。大量实验表明,CryoGEM能够生成真实的cryo-EM图像。生成的数据集可以作为冷冻电镜基础大模型、粒子挑选和姿势估计模型的训练数据,最终提高重建分辨率。
上海科技大学信息学院2024级研究生陈麒合、2022级博士生张家恺为共同第一作者,虞晶怡教授为通讯作者,何旭明教授课题组、刘志杰教授课题组也参与了本项目。
项目链接:https://jiakai-zhang.github.io/cryogem/
论文链接:https://arxiv.org/pdf/2312.02235
9. 用于冷冻电镜的去噪重建自动编码器
DRACO: A Denoising-Reconstruction Autoencoder for Cryo-EM
自监督预训练方法往往忽视了冷冻电镜(cryo-EM)图像中由高水平噪声引起的严重损坏。研究人员提出了DRACO,一种用于cryo-EM的去噪重建自编码器,灵感来自Noise2Noise(N2N)方法,应用了去噪-重建混合训练方案。对于DRACO的预训练,数据集的质量至关重要,研究人员从一个未经筛选的公共数据库中构建了一个高质量、多样化的数据集,包含超过27万个序列或显微图像。预训练后,DRACO自然作为一个通用的cryo-EM图像去噪器,并且成为各种cryo-EM下游任务的基础模型。与最先进的基准模型相比,DRACO在去噪、显微图像筛选和蛋白质颗粒挑选任务中表现出最佳性能。
上海科技大学信息学院2022级研究生沈盈君、2023级研究生戴海钊为共同第一作者,虞晶怡教授为通讯作者,裴远研究员也参与了本项目。