论文部分内容阅读
当前,推荐方式通常被分为三类:基于内容的推荐方法,协同过滤推荐方法和混合推荐方法。基于内容的推荐是为客户推荐其以往偏爱的产品的相似产品。它没有考虑到用户反馈的信息和用户暗含的兴趣,这样就会导致结果的不正确。协同过滤推荐首先寻找当前客户的邻居客户,之后把邻居客户喜爱的商品推荐给当前客户。所以协同过滤推荐亟待解决的难题即是数据稀疏与冷启动。半监督聚类就是在无监督学习的基础上添加较少的监督信息,然后使用这些监督信息来提升聚类效果。度量函数在聚类中非常常见,常用的度量方式采用欧式距离,但是欧式距离同样存在很多不足之处:欧式距离度量对于椭圆形数据的处理效果很差;如果数据集里面的样本之间相关性很高,欧式距离度量的效果就不够理想;假如数据样本集的维数很大,计算量会非常大,那么算法的时间复杂度就会很高。针对上述推荐方法与半监督聚类的问题,本文将改进的马氏距离用于半监督聚类,旨在实现多种推荐方法用于数字图书推荐。具体研究工作如下:(1)针对协同过滤推荐中相似度计算的方法比较少这一问题,以及欧式距离只对球形数据的处理效果较好,椭圆形数据的处理效果很差这一缺点,将基于熵理论的马氏距离用于度量。然后与高斯混合模型相结合,用于半监督聚类,构建目标函数,提高聚类质量。(2)监督信息不止包括数据标签,也包含样本的连接约束关系,但是通常研究会忽略约束关系。约束条件就是,必需同在一类的归为Must-Link,肯定不在一类的归为Cannot-Link。所以在聚类之前,将约束关系作为先验条件,用于引导聚类过程,得到聚类结果。但是约束关系集合并不能直观的观察出来,所以将主动学习用于发现成对约束。然后将约束条件与马氏距离相结合用于半监督模糊聚类。(3)构建一种基于半监督聚类的数字图书推荐模型,并将本文改进的两种聚类算法应用于该模型。