在中文文本挖掘和自然语言处理中,对汉字进行语义表征是一项非常重要的基础工作,可以帮助机器学习算法更好地利用汉字之间的丰富语义联系,提高分词、命名实体识别和文本分类等任务的准确性。作为一种意音文字(logogram),汉字通过读音、结构、部首等信息形成字与字之间意涵上的丰富关联。如何充分捕捉汉字间关联所表示的意义,是汉字语义表征的一个挑战。
近期上海科技大学信息学院张海鹏课题组研究提出了一种创新的汉字表征方法。该方法利用部首的方位角来表达汉字的内部结构,利用形声字的形旁和声旁来连接汉字的外部关系,并采用了异构图注意力网络来学习汉字内部与外部之间的联系,从而得到汉字的语义表征。
图1 异构图汉字外部关系示例
中文姓名-性别推测是汉字表征的一个重要下游任务。许多性别研究通过从英文姓名中猜测性别的方式获取原本缺失的性别信息,从而在大规模数据上量化性别差异。然而,当前中文姓名-性别推测方法的准确率并不理想,这制约了中国背景下的性别研究发展。张海鹏课题组提出并开源的模型,在多个人名-性别数据集上都取得了最高准确率。同时,课题组还公开了该任务下最大的数据集(包含5800万真实人名-性别数据),有利于更好地推动该领域的研究发展。
图2 模型结构
图3 不同数据集中性别推测准确性
以上成果以题名为“For the Underrepresented in Gender Bias Research: Chinese Name Gender Prediction with Heterogeneous Graph Attention Network”被第37届AAAI人工智能会议(AAAI Conference on Artificial Intelligence, AAAI 2023) 接收录用,并入选大会的口头报告。AAAI人工智能会议是中国计算机学会推荐的CCF-A类人工智能领域知名学术会议。上海科技大学是该成果的第一完成单位,信息学院2021级研究生潘子豪与2020级研究生彭凯为论文的共同第一作者,张海鹏教授为通讯作者。张海鹏课题组(https://faculty.sist.shanghaitech.edu.cn/zhanghp/)致力于挖掘大规模人类行为数据,以探索人类的金融投资、出行、交流与创新行为机制。