论文部分内容阅读
近年来,自动编码器被广泛用于跨领域文本分类任务,其中降噪自动编码器可以学到抽象、鲁棒的特征表示,在跨领域学习任务上取得令人满意的结果。在先前的工作中,降噪自动编码器将噪音系数设置为一个常量,然而,不同的跨领域任务因数据分布差异不同,对噪音系数敏感程度不同;此外,基于自动编码器在学习新的特征表示时,没有保存原始数据的局部几何结构信息,导致在原始特征空间距离较近的实例,可能在新的特征空间相距较远;而且在新的特征空间,源领域和目标领域之间的散度有可能变大,这给已有基于降噪自动编码器的跨领域分类方法带来了极大的挑战。针对上述问题,本文基于自动编码器,围绕文本数据的分类问题展开研究,主要工作如下:(1)针对不同的跨领域任务对噪音系数比较敏感问题,提出一种基于自适应噪音边缘降噪自动编码器(mSDA-AP)用于跨领域文本分类。该方法首先选取源领域和目标领域的共享特征词和特有特征词,并对特征进行加权以扩大极性较强的特征的比例;然后根据领域间共享特征词的分布差异计算噪音系数,并用该噪音系数对输入数据进行干扰;最后基于边缘降噪自动编码器(mSDA)获取新的特征空间构建分类器并对目标领域中未标记数据进行分类。实验结果表明该方法可以取得比基线算法更好的分类精度。(2)针对采用Frobenius范数衡量重构误差的自动编码器对异常数据比较敏感问题,我们提出了一种基于L2,1范数堆叠自动编码器(SRAAR)用于跨领域文本分类。该方法采用L2,1范数衡量原始特征空间和新特征空间的重构误差,在学习特征表示的目标函数中引入了流行正则化项和最大均值差异(MMD)项用于保存数据的局部几何结构信息和最小化领域间的分布散度。然后,基于新的特征表示构建分类器对目标领域样本分类。实验结果表明该方法在跨领域文本分类任务上性能优异。