2025年10月11日,在哈尔滨召开的中国自动化大会上,我院伍冬睿教授团队2023年发表于IEEE/CAA Journal of Automatica Sinica(自动化学报英文版,影响因子19.2)的综述论文:W. Zhang, L. Deng, L. Zhang and D. Wu*, “A survey on Negative Transfer,” IEEE/CAA Journal of Automatica Sinica, 10(2):305-329, 2023.获该刊2025年度Norbert Wiener Review论文奖。这也是伍冬睿教授团队获得的第7个杰出论文奖。

图为获奖证书

图为奖牌
传统机器学习的一个基本假设是训练和测试数据同分布。然而,现实应用中该假设往往不能满足。比如,两个图像数据库可能是用不同的相机在不同光照条件下采集的;脑机接口中的被试往往具有很大的个体差异。所以,从训练集上获得的模型在测试集上的泛化能力经常退化。
一个直观的解决办法是重新采集跟测试集样本分布相同的大量带标注样本,基于此训练一个有监督机器学习模型;然而,因为标注成本、隐私保护等限制,现实应用中往往无法获得这样的大量带标注样本。
更好的解决办法是使用迁移学习,即使用源域的数据或信息来促进目标域的学习。这样,目标域只需要很少或完全不需要带标注样本。
然而,迁移学习并非总是有效,除非其3个基本假设都得到满足:1)源域和目标域的学习任务相似或相关;2)源域和目标域数据分布比较接近;3)存在一个源域和目标域同时适用的模型。当这些假设不满足时,就会发生负迁移,即使用源域的数据或知识反而会让目标域学习性能变差,不如直接用目标域的数据进行训练,如下图所示:

负迁移图示
负迁移是迁移学习中一个长期存在且很具挑战性的问题。可靠的迁移学习需同时考虑3个问题:1)迁移什么?2)如何迁移?3)何时迁移?本文对近100种对抗负迁移的方法进行了分类和回顾:

对抗负迁移的方法总结
首次提出无监督与半监督场景下负迁移的理论定义,结合迁移学习中目标域误差理论界限指出负迁移产生原因,包括:
域间差异大:负迁移产生的根源,在特征、参数、训练、模型预测层面未考虑减轻域间差异的迁移学习算法都更有可能导致负迁移;
源数据质量差:源域数据可分性差、类别不平衡或包含噪声,或者源模型过拟合、欠拟合或被对抗攻击的源模型也可能导致负迁移;
目标域数据质量差:目标域数据可能包含噪声或非平稳的,具有开放或混合的域边界,或存在新类别和标签偏移都可能导致负迁移;
不合适的迁移学习算法:迁移学习算法一般均存在一些假设和特定的应用场景。在特定任务上选择不合适的迁移学习算法、或使用不合适超参数也可能导致负迁移。
并构建了负迁移检测标准:
目标域情况 |
检测标准 |
少量标注数据 |
仅使用源域、仅使用目标域、使用源域+目标域、微调 |
少量无标注数据 |
随机猜测、仅使用源域、半监督学习 |
无任何数据 |
随机猜测、仅使用源域、域泛化 |
和负迁移任务构造策略:
构造策略 |
具体方式 |
利用任务先验知识 |
性能不佳或不相关的源域 |
修改边缘概率分布 |
添加随机噪声、仿射变换 |
修改条件概率分布 |
数据污染、标签反转 |
修改模型决策边界 |
对抗攻击、后门攻击 |
我院博士生张稳为第一作者,硕士生邓凌飞为第二作者,伍冬睿教授为通讯作者。合作者还包括重庆大学张磊教授。该论文谷歌学术被引492次、WoS被引192次。