论文部分内容阅读
随着现代存储和通信技术的发展,存储不断增长的大规模数据已经不再是难事,人们迫切地想从这些数据中获得有用的信息,因而如何有效地处理复杂数据并做有效的建模分析己成为计算机科学亟待解决的问题。例如,电子商务网站的数据库中既包含某件商品的文本描述、图片又包含用户评论和购买信息,对这些多关系数据建模分析是机器学习和数据挖掘领域的热点。 概率模型方法被广泛用于文本分类、信息检索、文本和图像标注、协同过滤、链接预测等问题。这些方法通常假设一个概率模型来刻画数据的生成过程,通过最大化似然概率得到模型参数的估计值,进而利用模型参数对新的数据做预测。本文的主要工作包括: 系统地总结了两种基本模型,混合主题模型和因子分解模型的相关解法。混合主题模型是一种聚类模型,它可以分析隐主题以及对单词和图像做标注。因子分解模型的经典例子是概率矩阵分解,通过假设矩阵元素由交互的因子内积,以达到对不完全观察矩阵填充的目的,常用于评分预测协同过滤、图像恢复、背景提取等问题。 提出基于混合主题模型和因子分解模型的多关系模型,以处理同时具有链接信息与辅助信息的数据。本文有效地利用上述基本模型的解法,提出了三种新模型。公开数据集上的实验表明其有更好的预测精度。