信息学院虞晶怡、高盛华课题组合作取得个性化显著性预测方面重要进展

ON2018-10-15CATEGORY科研进展

信息学院虞晶怡课题组和高盛华课题组共同合作,在个性化显著性预测方面取得进展。近日,相关工作以“Personalized Saliency and Its Prediction”为题,在国际知名期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)》(影响因子:9.455)上在线发表。

显著性检测是计算机视觉中长期存在的问题。现有的大部分研究都集中在探索用户间普遍存在的显著性模型,即缺乏对个体在性别、年龄、习惯上差异的重视。在该项研究中,研究团队首次提出了个人显著性预测任务,并建立了首个个人显著性数据库,同时提出基于卷积神经网络的多任务个人显著性预测模型(Multi-Task Convolutional Neural Network)和基于个人信息编码的卷积神经网络预测模型(Person-specific Information Encoded Filters),实验结果验证了模型的良好的性能。

图像的显著性检测是检测出图像(RGB图像或者光场)中的感兴趣区域。目前几乎所有的显著性检测方法集中精力在预测大多数人感兴趣的区域,却忽略人和人之间的年龄、性别、爱好上的差异性。这些方法在寻找多数人感兴趣的区域上具有很好的性能,但是在预测个人的感兴趣区域上还会有些欠缺。如下图所示,在每张图像中,通常会存在很容易吸引人的物体,比如第一行图像中的人脸,或者最后一行图像中的文字。但是,不同的人也会对不同的物体感兴趣,例如第一行图像中,有的观看者会关注网球拍和球,也有人会更多关注运动员本身。我们用“universal saliency”指代所有人感兴趣的区域,“personalized saliency”指代个人感兴趣的区域。

在该项研究中,首次提出的个人显著性检测,有众多的应用场景。如果知道某个人的跟兴趣区域的喜好倾向,我们可以为他/她订制个性化算法。例如,对上图中的最后一行图像做压缩时,不同的人要采用不同的压缩策略。对于观测值B和C来讲,图中的文字部分一定是要保留,但是对于观测者A,完全可以忽略桌子上的文字部分。另外,在AR/VR的应用中,对于那些用户关注度高的区域,可以尽量少压缩或者不压缩,而其他区域可以尽可能多压缩,这样既可以保证用户的体验也可以提高传输效率。此外,我们还可以在用户感兴趣的区域插入一些logo或者广告。

该项研究提出了基于卷积神经网络的多任务个人显著性预测模型(Multi-Task Convolutional Neural Network)和基于个人信息编码的卷积神经网络预测模型(Person-specific Information Encoded Filters),借助universal saliency map来预测personalized saliency map。实验结果验证了模型的良好的性能。

该论文中,博士生徐衍钰为第一作者,高盛华助理教授为通信作者,助理研究员吴俊儒、访问学者李念怡及虞晶怡教授为共同作者,上科大为第一完成单位。该工作得到国家自然科学基金和上海科技大学科研启动基金的支持,李念怡还得到美国国家科学基金会的支持。

论文链接:

https://ieeexplore.ieee.org/document/8444709/


只要知道某个人的感兴趣区域,即可为其订制个性化算法。例如,对上图中的最后一行图像做压缩时,不同的人要采用不同的压缩策略。对于观测值B和C来讲,图中的文字部分一定是要保留,但是对于观测者A,完全可以忽略桌子上的文字部分。