近日,我校信息学院邵子瑜课题组在网络基础理论研究领域取得突破性进展,解决了该领域长期以来悬而未决的一个公开难题:“如何系统性地设计有效的大规模网络拓扑结构”。相关工作以“Systematic Topology Design for Large-Scale Networks: A Unified Framework”为题,被国际计算机通信大会(INFOCOM)接收。 国际计算机通信大会(International Conference on Computer Communications,INFOCOM)是网络领域中重要的国际学术会议之一,由IEEE(国际电气电子工程师学会)举办。INFOCOM 2020共收到1354篇提交论文,录用268篇,接收率为19.8%。
网络研究领域一直以来有一个基础性的公开难题,即如何采用自顶向下的方法系统性地设计网络尤其是大型网络的拓扑结构,以满足各种领域不同的性能要求。目前已有的网络拓扑结构设计方案绝大部分采用自底向上的方法进行设计,非常依赖于设计者的工程经验和巧妙的启发式想法。以云计算领域以及人工智能的核心系统“数据中心网络”为例,对其拓扑结构的研究已经有很长的历史,涌现出Fat-Tree、DCell等许多经典拓扑结构。其中,Fat-Tree结构已经被谷歌、微软、Facebook、阿里巴巴、百度、腾讯等大型IT企业的数据中心广泛采用。但是这些通过自底向上方法设计的拓扑结构,只适用于某些特定网络场景,难以有效地扩展升级到更广泛的场景,因为有几个核心问题无法很好地回答:(1) 为什么有些拓扑结构如Fat-tree在实际系统中运行效果很好?(2)这些拓扑结构什么时候运行效果不好?(3)如何系统性的去提高拓扑结构的设计?
为了回答这些核心问题,邵子瑜教授带领学生用了近两年时间,另辟蹊径,提出一套通用的理论设计框架,终于彻底解决这一基础性公开难题。解决问题的思路是采用逆向工程与前向工程相结合的方法。一直以来,邵子瑜教授都有一个信念,即通过经验和启发式想法设计的实际系统中运行得非常好的工程设计,其背后必定蕴含着一个相应的数学原理和隐含问题,而该设计可以看成是解决了对应隐含数学问题的最优方案。
解决问题的入手点是针对数据中心网络中最常用的Fat-tree结构进行逆向工程。这是非常关键的一步,在尝试了许多思路和工具之后,终于发现Fat-Tree结构设计背后的数学原理。原来,Fat-Tree结构可以看做是一类组合设计结构在一定约束条件下的最优设计。在此基础上,研究人员从组合设计理论中找到了几个关键性的工具并对其加以改造,结合前述的数学原理以及工程结构从而凝练出一套通用的拓扑结构设计分析框架。研究人员发现,数据中心网络和超算中几乎所有的已知重要拓扑结构都可以从这套通用设计框架中系统性地产生。不仅如此,通过这套设计框架,还可以系统性地改进已有的拓扑结构并明白其极限所在。
通过这套通用拓扑结构设计框架,研究人员做了许多前向工程工作,针对不同领域的性能需求,系统性地产生了数十个不同类别的新型拓扑结构,可以满足数据中心、超算、联邦学习、智能物联网、集成电路设计等多个领域的网络拓扑结构需求。而且这样的拓扑结构还可以与最新的机器学习、强化学习技术结合,设计出各种自适应智能网络,更好地实现网络智能。
截至目前,该研究工作已经收到美国麻省理工学院(MIT)、华为公司等国际知名大学和企业的讲座邀请。
该课题的研究工作在上科大完成。邵子瑜课题组硕士研究生常益嘉为第一作者,同组博士研究生黄曦和2017级本科生邓龙秀林分别为第二和第三作者,邵子瑜教授为通讯作者。上科大为第一完成单位。相关研究得到了上海科技大学科研启动基金,国家自然科学基金以及上海市自然科学基金的支持。
新型网络拓扑结构示例I
新型网络拓扑结构示例II
新型网络拓扑结构示例III