论文部分内容阅读
回归是一类机器学习问题,带标签的训练样本对于回归模型的训练非常重要。而在某些实际应用中,原始样本很容易获得,但是给它们打上真实标签却非常困难,例如需要花费大量的人力、物力或时间。对于这类回归问题,应用主动学习可以有效地降低打标成本。目前的主动学习研究大多针对分类问题,针对回归问题的较少。本文考虑离线的基于池的主动学习回归问题,即给定一个样本池,如何从中选择尽可能少的最有价值的样本来打标,从而训练出性能尽可能好的回归模型。
本文首先对比了有监督主动学习回归算法和无监督主动学习回归算法,并指出后者的一些优势;然后为无监督主动学习回归算法建立数学模型,并提出一种无需真实标签也能预测回归模型的精度的新指标;本文随后将有监督主动学习回归算法中的三个核心指标“分散度”、“代表性”和“信息量”迁移到了无监督主动学习回归算法中,并基于提出的数学模型和新指标为它们提供了理论解释;本文随后提出一种用于优化无监督主动学习回归算法中待打标样本集合的框架,该框架利用交替优化算法将多目标优化问题拆分为多个单目标优化问题;本文随后基于该框架,提出两种新的无监督主动学习回归算法iRDM和IRD,其中iRDM算法度量并融合了“分散度”和“代表性”指标,IRD算法不仅度量并融合了“分散度”和“代表性”指标,还针对线性回归模型度量了“信息量”指标,并融合到单次优化的目标函数中;本文最后在涵盖多个实际应用领域的12个公开的回归数据集上进行了大量的实验,实现了现有的经典主动学习回归算法和本文提出的两种新的无监督主动学习回归算法,使用“岭回归(Ridge)”和“基于径向基核函数的支持向量机回归(RBF SVR)”分别测试各算法在线性回归和基于核的非线性回归中的效果,从多个角度进行了数据分析,并进行了统计检验,验证了本文提出的两种新算法的性能和稳定性均优于现有的无监督主动学习回归算法,且在带标签训练样本很少时甚至优于有监督主动学习回归算法,还验证了使用本文提出的新算法为有监督主动学习回归算法选择初始的少量待打标样本能够有效提升有监督主动学习回归算法的性能。
本文为无监督主动学习回归算法建立的数学模型和提出的预测指标能为后续的无监督主动学习回归算法的研究提供理论支持及新思路。本文提出的两种无监督主动学习回归算法合理地度量并融合了分散度、代表性和信息量三个核心指标。相比现有算法,它们能更有效地减少打标工作量,它们还能用于任何有监督主动学习回归算法中以提升初始回归模型的性能。
本文首先对比了有监督主动学习回归算法和无监督主动学习回归算法,并指出后者的一些优势;然后为无监督主动学习回归算法建立数学模型,并提出一种无需真实标签也能预测回归模型的精度的新指标;本文随后将有监督主动学习回归算法中的三个核心指标“分散度”、“代表性”和“信息量”迁移到了无监督主动学习回归算法中,并基于提出的数学模型和新指标为它们提供了理论解释;本文随后提出一种用于优化无监督主动学习回归算法中待打标样本集合的框架,该框架利用交替优化算法将多目标优化问题拆分为多个单目标优化问题;本文随后基于该框架,提出两种新的无监督主动学习回归算法iRDM和IRD,其中iRDM算法度量并融合了“分散度”和“代表性”指标,IRD算法不仅度量并融合了“分散度”和“代表性”指标,还针对线性回归模型度量了“信息量”指标,并融合到单次优化的目标函数中;本文最后在涵盖多个实际应用领域的12个公开的回归数据集上进行了大量的实验,实现了现有的经典主动学习回归算法和本文提出的两种新的无监督主动学习回归算法,使用“岭回归(Ridge)”和“基于径向基核函数的支持向量机回归(RBF SVR)”分别测试各算法在线性回归和基于核的非线性回归中的效果,从多个角度进行了数据分析,并进行了统计检验,验证了本文提出的两种新算法的性能和稳定性均优于现有的无监督主动学习回归算法,且在带标签训练样本很少时甚至优于有监督主动学习回归算法,还验证了使用本文提出的新算法为有监督主动学习回归算法选择初始的少量待打标样本能够有效提升有监督主动学习回归算法的性能。
本文为无监督主动学习回归算法建立的数学模型和提出的预测指标能为后续的无监督主动学习回归算法的研究提供理论支持及新思路。本文提出的两种无监督主动学习回归算法合理地度量并融合了分散度、代表性和信息量三个核心指标。相比现有算法,它们能更有效地减少打标工作量,它们还能用于任何有监督主动学习回归算法中以提升初始回归模型的性能。