用户浏览内容分析与用户兴趣挖掘

被引量 : 0次 | 上传用户:fenglu84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,特别是因特网应用的普及,出现了“信息爆炸”的问题,即信息非常丰富而知识相对匮乏。如何管理WWW上的大量信息,以满足用户不断增长的个性化的信息需求,是研究人员面临的新课题,个性化服务技术已经成为当前信息服务领域的研究热点之一。所谓个性化服务就是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。用户兴趣模型能否准确地反映用户的兴趣决定了系统提供个性化服务质量。本文首先对当前主要的web挖掘技术和用户兴趣建模技术进行了分析,提出了以web用户浏览内容分析为主和以浏览行为分析为辅的用户兴趣挖掘过程模型。然后,对文本页面的表示技术进行了初步的研究和探讨,包括:文本的向量空间模型表示、特征项的选择和抽取算法,将文本页面表示为结构化的向量空间模型格式。接着,本文重点探讨了文本页面的聚类分析和用户兴趣模型的建立两个方面。在分析了现有聚类算法和实际应用环境后,提出了将层次凝聚法(agglomerative algorithm)和平面划分法(K-means algorithm)相结合的新算法:首先利用层次凝聚法进行初始聚类确定初始聚类中心和k值,然后用K-means算法进行聚类分析。在聚类结果的基础上,采用二层树状用户兴趣模型来表示每一个用户的兴趣:表示为(,),(,),…,(,))的加权矢量格式。为了便于用户兴趣模型的使用和更新,每一兴趣类也采用向量空间模型来表示,内容页面与兴趣类的比较就可以采用常用的相似性函数来进行相似度计算。每一兴趣类权值的确定分析了以下三个因素:(1)包含较多的文档页面数量;(2)包含尽可能多的内容页面,尽可能少的辅助页面;(3)尽可能少的页组内相互访问连接。最后,对上述改进方法做了较为全面的模拟实验。根据模拟实验分析表明,本文所改进的聚类算法实现简单,准确率较高;提出的用户兴趣模型能较准确地描述用户兴趣所在,在个性化推荐服务中具有实际应用价值。本文进一步的工作将致力于用户兴趣模型准确性的提高,并将得到的用户兴趣模型应用于个性化系统的推荐服务。
其他文献
本文总结梳理了六盘水在产业扶贫、金融扶贫、深度贫困地区等方面存在的问题,以期在“后脱贫”时代提出合理科学的发展方案,为六盘水市在全面小康最后冲刺阶段实现脱贫攻坚任
目的 观察24例急性一氧化碳中毒后迟发性脑病(Delated encephalopathy after Acute Carbon Monoxide Poisioning DEACMP)患者治疗前后血中白细胞介素(IL)2、4、6及白细胞介素2
随着石油工业的发展,超高分子量聚合物作为原油输送减阻剂在国内外输油管线中得到日益广泛的应用。因此关于超高分子量减阻剂的各项研究也倍受人们的关注。本文简要介绍了高分
由于金刚石钻头和金刚石锯片所用金刚石占我国金刚石产量的60%以上。而我国所生产的金刚石钻头和金刚石锯片其产品质量与其它发达国家相比还差距很大,我国主要是生产中低档产品
备受社会各界关注的技术开发类科研机构企业化转制已走过了将近4年的历程,从延续了几十年的事业运行机制转变为现代企业经营机制,从埋头搞研究的科研机构转变为按市场机制运作
随着第二次世界大战临近结束,美国战略情报局作为战争时期紧急成立的情报机构即将完成它的历史使命而被撤消,整个美国情报界进入了从战争时期向和平时期转型的过渡阶段。于是,在
在人类中心主义和生态中心主义的对抗中,生态哲学思想不断发展变化着。前者强调人对自然其他存在物的统治权利;后者则呼吁生态圈里所有事物生存和繁荣的平等权利。 作为生态
迫于环境污染和石油资源短缺的压力,致力于可持续发展战略,混合动力汽车成为21世纪汽车工业的一大发展方向。国内外专家基本上达成共识:混合动力电动汽车的使用不只是电动汽车的
1随着我国汽车工业的发展,和入关后汽车工业面临更激烈的竞争,对质量和性能要求的提高,三坐标测量机将在汽车工业得到更广泛的应用。特别是,三坐标测量机不仅在计量室使用,而更多
苏通长江大桥的建成,标志着斜拉桥跨径进入了超千米的新时代。为适应21世纪跨海连岛桥梁建设的需要,斜拉桥跨径记录不断刷新,桥塔日益高耸,结构的刚度日趋下降,斜拉桥抗风稳