用户浏览内容分析与用户兴趣挖掘

被引量 : 0次 | 上传用户：fenglu84

【摘要】

：

随着信息技术的发展,特别是因特网应用的普及,出现了“信息爆炸”的问题,即信息非常丰富而知识相对匮乏。如何管理WWW上的大量信息,以满足用户不断增长的个性化的信息需求,是

【作者】

：

赵银春

【发表日期】

：

2004年期

【关键词】

：

文本聚类用户兴趣模型 web网页向量空间模型个性化服务

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展,特别是因特网应用的普及,出现了“信息爆炸”的问题,即信息非常丰富而知识相对匮乏。如何管理WWW上的大量信息,以满足用户不断增长的个性化的信息需求,是研究人员面临的新课题,个性化服务技术已经成为当前信息服务领域的研究热点之一。所谓个性化服务就是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。用户兴趣模型能否准确地反映用户的兴趣决定了系统提供个性化服务质量。本文首先对当前主要的web挖掘技术和用户兴趣建模技术进行了分析,提出了以web用户浏览内容分析为主和以浏览行为分析为辅的用户兴趣挖掘过程模型。然后,对文本页面的表示技术进行了初步的研究和探讨,包括:文本的向量空间模型表示、特征项的选择和抽取算法,将文本页面表示为结构化的向量空间模型格式。接着,本文重点探讨了文本页面的聚类分析和用户兴趣模型的建立两个方面。在分析了现有聚类算法和实际应用环境后,提出了将层次凝聚法(agglomerative algorithm)和平面划分法(K-means algorithm)相结合的新算法:首先利用层次凝聚法进行初始聚类确定初始聚类中心和k值,然后用K-means算法进行聚类分析。在聚类结果的基础上,采用二层树状用户兴趣模型来表示每一个用户的兴趣:表示为(,),(,),…,(,))的加权矢量格式。为了便于用户兴趣模型的使用和更新,每一兴趣类也采用向量空间模型来表示,内容页面与兴趣类的比较就可以采用常用的相似性函数来进行相似度计算。每一兴趣类权值的确定分析了以下三个因素:(1)包含较多的文档页面数量;(2)包含尽可能多的内容页面,尽可能少的辅助页面;(3)尽可能少的页组内相互访问连接。最后,对上述改进方法做了较为全面的模拟实验。根据模拟实验分析表明,本文所改进的聚类算法实现简单,准确率较高;提出的用户兴趣模型能较准确地描述用户兴趣所在,在个性化推荐服务中具有实际应用价值。本文进一步的工作将致力于用户兴趣模型准确性的提高,并将得到的用户兴趣模型应用于个性化系统的推荐服务。

其他文献

六盘水市精准扶贫存在的问题及难点

本文总结梳理了六盘水在产业扶贫、金融扶贫、深度贫困地区等方面存在的问题,以期在“后脱贫”时代提出合理科学的发展方案,为六盘水市在全面小康最后冲刺阶段实现脱贫攻坚任

期刊

精准扶贫精准脱贫六盘水

急性一氧化碳中毒后迟发性脑病患者血中白细胞介素2、4、6及白细胞介素2受体的研究

目的观察24例急性一氧化碳中毒后迟发性脑病（Delated encephalopathy after Acute Carbon Monoxide Poisioning DEACMP）患者治疗前后血中白细胞介素（IL）2、4、6及白细胞介素2

学位

一氧化碳中毒迟发性脑病IL-246及IL-2RELISA法

高分子减阻剂的性能评价

随着石油工业的发展，超高分子量聚合物作为原油输送减阻剂在国内外输油管线中得到日益广泛的应用。因此关于超高分子量减阻剂的各项研究也倍受人们的关注。本文简要介绍了高分

学位

减阻剂合成Ziegler－Natta催化剂减阻率环道湍流摩阻系数雷诺数非牛顿流体

金刚石钻头和金刚石锯片磨损机理、设计及性能测试研究

由于金刚石钻头和金刚石锯片所用金刚石占我国金刚石产量的60％以上。而我国所生产的金刚石钻头和金刚石锯片其产品质量与其它发达国家相比还差距很大，我国主要是生产中低档产品

学位

金刚石钻头金刚石锯片金刚石粒度金刚石浓度金刚石强度钻头寿命锯片寿命磨损机理

长沙矿冶研究院转制过程资本运营研究

备受社会各界关注的技术开发类科研机构企业化转制已走过了将近4年的历程，从延续了几十年的事业运行机制转变为现代企业经营机制，从埋头搞研究的科研机构转变为按市场机制运作

学位

长沙矿冶研究院转制资本运营

美国政府内部关于中央情报机构转型之争（1944年9月—1946年1月）

随着第二次世界大战临近结束，美国战略情报局作为战争时期紧急成立的情报机构即将完成它的历史使命而被撤消，整个美国情报界进入了从战争时期向和平时期转型的过渡阶段。于是，在

学位

美国中央情报机构转型之争情报界发展

《瓦尔登湖》：重探梭罗的深层生态学思想

在人类中心主义和生态中心主义的对抗中，生态哲学思想不断发展变化着。前者强调人对自然其他存在物的统治权利；后者则呼吁生态圈里所有事物生存和繁荣的平等权利。作为生态

学位

梭罗自然深层生态学“自我实现”

ISG型混合动力长安汽车关键技术研究

迫于环境污染和石油资源短缺的压力，致力于可持续发展战略，混合动力汽车成为21世纪汽车工业的一大发展方向。国内外专家基本上达成共识：混合动力电动汽车的使用不只是电动汽车的

学位

汽车混合动力ISG仿真

三坐标测量机在汽车检测生产线的应用

1随着我国汽车工业的发展，和入关后汽车工业面临更激烈的竞争，对质量和性能要求的提高，三坐标测量机将在汽车工业得到更广泛的应用。特别是，三坐标测量机不仅在计量室使用，而更多

学位

测量机搜索功能薄壁件DMIS 语言

超大跨径斜拉桥的结构体系及抗风稳定性研究

苏通长江大桥的建成,标志着斜拉桥跨径进入了超千米的新时代。为适应21世纪跨海连岛桥梁建设的需要,斜拉桥跨径记录不断刷新,桥塔日益高耸,结构的刚度日趋下降,斜拉桥抗风稳

学位

超大跨度斜拉桥动力特性空气静力稳定性空气动力稳定性设计参数

用户浏览内容分析与用户兴趣挖掘

其他学术论文