生医工学院李远宁课题组提出声学—语言双通路神经解码框架

ON2026-01-13CATEGORY科研进展

近日,上海科技大学生物医学工程学院李远宁课题组在eLife上发表题为“High-Fidelity Neural Speech Reconstruction through an Efficient Acoustic-Linguistic Dual-Pathway Framework”的研究论文,提出一种高效的声学—语言双通路语音重建框架,在仅使用每位受试者约20分钟高密度颅内脑电 (ECoG) 数据的条件下,实现了兼具自然度与可懂度的句子级语音重建。

口语是人类最自然的交流方式,理解大脑如何编码表达语音既是认知神经科学的重要问题,也为面向失语、渐冻症等人群的语音解码脑机接口奠定了基础。ECoG凭借高时空分辨率为语音解码提供了关键窗口,深度学习进一步推动了神经到语音解码的进展。然而,临床配对数据稀缺使端到端模型难以稳定泛化。现有方法通常面临两难选择:回归声学特征更自然却不够清晰,解码离散语言单位更清楚却缺少真实音色与韵律。因此,一个核心问题是:在小样本ECoG条件下,能否同时实现自然度与可懂度兼具的句子级语音解码重建?

 

1 ECoG实验范式与双通路解码模型架构。

 

本研究提出“声学—语言双通路”的神经语音解码重建框架,利用预训练语音与生成模型提供的通用先验,在小样本颅内脑电条件下实现更兼顾自然度与可懂度的句子级语音解码重建。其关键贡献不仅是性能提升,更在于以结构化方式验证了语音表征的多层属性:声学真实性与语言可理解性是可分解、可协同优化的目标;从更宏观的Neuro-AI视角,该工作体现了“基础模型先验 + 神经信号对齐约束”的新范式,为降低BCI数据门槛、提升系统可用性,并推动脑科学与AI表征对齐研究提供了重要启示。

上海科技大学生物医学工程学院博士研究生李嘉炜为论文第一作者,李远宁教授为通讯作者,清华大学/上海人工智能实验室张超教授等也参与了本研究。上海科技大学为论文第一完成单位。

论文链接:https://doi.org/10.7554/eLife.109400