论文部分内容阅读
随着信息技术的发展,特别是因特网应用的普及,出现了“信息爆炸”的问题,即信息非常丰富而知识相对匮乏。如何管理WWW上的大量信息,以满足用户不断增长的个性化的信息需求,是研究人员面临的新课题,个性化服务技术已经成为当前信息服务领域的研究热点之一。所谓个性化服务就是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。用户兴趣模型能否准确地反映用户的兴趣决定了系统提供个性化服务质量。本文首先对当前主要的web挖掘技术和用户兴趣建模技术进行了分析,提出了以web用户浏览内容分析为主和以浏览行为分析为辅的用户兴趣挖掘过程模型。然后,对文本页面的表示技术进行了初步的研究和探讨,包括:文本的向量空间模型表示、特征项的选择和抽取算法,将文本页面表示为结构化的向量空间模型格式。接着,本文重点探讨了文本页面的聚类分析和用户兴趣模型的建立两个方面。在分析了现有聚类算法和实际应用环境后,提出了将层次凝聚法(agglomerative algorithm)和平面划分法(K-means algorithm)相结合的新算法:首先利用层次凝聚法进行初始聚类确定初始聚类中心和k值,然后用K-means算法进行聚类分析。在聚类结果的基础上,采用二层树状用户兴趣模型来表示每一个用户的兴趣:表示为(,),(,),…,(,))的加权矢量格式。为了便于用户兴趣模型的使用和更新,每一兴趣类也采用向量空间模型来表示,内容页面与兴趣类的比较就可以采用常用的相似性函数来进行相似度计算。每一兴趣类权值的确定分析了以下三个因素:(1)包含较多的文档页面数量;(2)包含尽可能多的内容页面,尽可能少的辅助页面;(3)尽可能少的页组内相互访问连接。最后,对上述改进方法做了较为全面的模拟实验。根据模拟实验分析表明,本文所改进的聚类算法实现简单,准确率较高;提出的用户兴趣模型能较准确地描述用户兴趣所在,在个性化推荐服务中具有实际应用价值。本文进一步的工作将致力于用户兴趣模型准确性的提高,并将得到的用户兴趣模型应用于个性化系统的推荐服务。