半监督聚类在数字图书推荐中的应用研究

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:wlliser3d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,推荐方式通常被分为三类:基于内容的推荐方法,协同过滤推荐方法和混合推荐方法。基于内容的推荐是为客户推荐其以往偏爱的产品的相似产品。它没有考虑到用户反馈的信息和用户暗含的兴趣,这样就会导致结果的不正确。协同过滤推荐首先寻找当前客户的邻居客户,之后把邻居客户喜爱的商品推荐给当前客户。所以协同过滤推荐亟待解决的难题即是数据稀疏与冷启动。半监督聚类就是在无监督学习的基础上添加较少的监督信息,然后使用这些监督信息来提升聚类效果。度量函数在聚类中非常常见,常用的度量方式采用欧式距离,但是欧式距离同样存在很多不足之处:欧式距离度量对于椭圆形数据的处理效果很差;如果数据集里面的样本之间相关性很高,欧式距离度量的效果就不够理想;假如数据样本集的维数很大,计算量会非常大,那么算法的时间复杂度就会很高。针对上述推荐方法与半监督聚类的问题,本文将改进的马氏距离用于半监督聚类,旨在实现多种推荐方法用于数字图书推荐。具体研究工作如下:(1)针对协同过滤推荐中相似度计算的方法比较少这一问题,以及欧式距离只对球形数据的处理效果较好,椭圆形数据的处理效果很差这一缺点,将基于熵理论的马氏距离用于度量。然后与高斯混合模型相结合,用于半监督聚类,构建目标函数,提高聚类质量。(2)监督信息不止包括数据标签,也包含样本的连接约束关系,但是通常研究会忽略约束关系。约束条件就是,必需同在一类的归为Must-Link,肯定不在一类的归为Cannot-Link。所以在聚类之前,将约束关系作为先验条件,用于引导聚类过程,得到聚类结果。但是约束关系集合并不能直观的观察出来,所以将主动学习用于发现成对约束。然后将约束条件与马氏距离相结合用于半监督模糊聚类。(3)构建一种基于半监督聚类的数字图书推荐模型,并将本文改进的两种聚类算法应用于该模型。
其他文献
图像去噪是数字图像处理的重要环节。现实中,图像在被获取和被传输时常常会受到各种各样的噪声的干扰,按其影响可分为加性噪声和乘性噪声模型两大类。对于乘性噪声一般可以通
随着语音识别技术深入广泛的应用,它越来越将成为模式识别中的一个非常重要的研究课题,它的发展将会对未来的生活、工作带来极大的影响,而且该技术也将会成为未来十年的主流
隧道照明控制存在的最主要问题:当白天汽车从外部进入隧道的时候,由于隧道内外的亮度存在差别,如果隧道内部照明不够充分,车辆从外部进入时会产生“黑洞”和“黑框”现象,车
随着Internet的迅速普及,宽带业务大量涌现,人们对带宽的需求日益增长,作为解决”最后一公里”问题的最佳方案,EPON(Ethernet Passive OpticalNetwork,以太无源光网络)应运而
随着人类社会经济文化的不断发展,人们的物质文化需求不断上涨,对于计算机网络及计算机技术有了更高的需求,于是出现了数据、图像、话音等多媒体的通信。在此发展背景下VOIP
随着计算机和网络技术的不断发展和应用领域的日益扩大,教育信息化的步伐也正在加速前进,各种教育管理的系统、种类繁多的教育资源,如校园中的网网络课程、网络答疑、网络考试系
本文在研究了基于内容的图像检索相关领域的关键技术及发展趋势的基础上,以植物花卉图像为研究对象,对植物花卉图像在区域分割、特征提取、基于内容的重复图像过滤以及基于SV
网格技术利用网络将地理上分布的计算机组织成为一个虚拟的超级计算机,充分吸收网络上的各种资源,使用户可以方便的使用高性能计算能力、昂贵的实验设备及其它稀有的资源,从
反病毒虚拟机技术是当今反病毒领域的核心技术之一,作为病毒检测的辅助手段被广泛应用。由于理论和技术上的缺陷,目前的反病毒虚拟机对系统运行机制的模拟不足、扩展能力差,对于
随着计算机网络的飞速发展,各高校网络规模的扩大,计算机网络监管的问题日益突出,给机房管理带来了巨大的压力。与人工管理效率低下相比,自动的网络监控软件的越来越显示出其