论文部分内容阅读
信息技术的发展,使得互联网上的数据呈现出大数据特性,主要表现为体量大和多源异构,这些问题对科学管理和计算方法提出了严峻的挑战,迫切需要我们整合多个来源的数据表示形式以获得比任何单个来源的信息都要准确、可靠的知识。鉴于此,针对现有信息融合方法中的不足,本文分别研究了基于对称非负矩阵分解的信息融合模型、考虑图正则化的对称非负矩阵分解融合模型和基于对称非负矩阵分解的预测模型,并将其首次应用到跨模态信息检索任务中。具体工作如下:1.针对多个视角间可能存在一个“一致”聚类模式的假设,建立了一种基于对称非负矩阵分解的信息融合模型(Multi-view SNMF)。通过对不同视角获得的聚类指示矩阵进行标准化,将其与“一致”聚类模式的距离作为约束项引入到对称非负矩阵分解目标函数中并进行优化求解,解决了固定同一个聚类模式带来的多个视角间的数据不一致问题;而现有文献中并没有考虑将对称非负矩阵分解与该“一致性”假设结合起来进行建模的做法。实验结果表明:Multi-view SNMF模型在精度和标准互信息两个指标上有更好的表现。2.针对信息融合中聚类准确度不高、稳定性不强等问题,提出了一种考虑图正则化的对称非负矩阵分解融合模型:LJ-SNMF。在LJ-SNMF模型中,通过构建鲁棒的Laplacian图来保持流形一致性,并结合“不同视角的聚类结构都趋于一致的聚类结构”的思想,使最后获得的聚类一致矩阵既保持了原始数据之间的潜在关系,又充分利用了各视角携带的互补和兼容性信息。实验表明:引入图正则化能显著提高对称非负矩阵分解融合模型的性能,也可在一定程度上解决各视角信息不兼容的问题。3.针对Laplacian图正则化不能有效推理的问题,提出了一种基于Hessian图正则化的对称非负矩阵分解融合模型:HJ-SNMF。这种方法利用原始数据的二阶信息来刻画样本之间的关系,允许测地函数对数据进行线性推理,避免了 Laplacian在对未知数据预测时偏向常数的情形发生。结果表明,HJ-SNMF具有良好的性能表现。利用以上两种融合模型可做到对目标类型较为精准的判别,在信息推荐、用户管理等任务中将起到重要的支撑作用。4.针对实时样本的分类和表示问题,在前述研究的基础上,提出了一种基于“一致”聚类模式的实时样本预测方法。当给出样本在一个模态空间中的表示时,可由此预测模型判定该样本在另一个模态中的近似表示;也可藉此判断其所属的类别。这一预测方法可以对实时样本进行增量识别,而不用重复利用历史数据进行建模,避免了繁琐的迭代计算过程,极大地提高了运算效率,在文本分类、信息推送等领域有很大的应用前景。最后,研究了对称非负矩阵分解在跨模态信息检索任务上(“以图搜文”与“以文搜图”)的应用。这种方法将多视角聚类和不同模态之间的关联结合起来,一定程度上提高了跨模态检索系统的性能,进一步验证了所提出的方法的有效性和实用价值。