论文部分内容阅读
随着网络技术的发展,Internet上的数据量大量增加,同时人们对信息的需求也越来越专业化。个性化服务技术的出现在一定程度上解决了信息的多样化与用户需求的专一化之间的矛盾。用户兴趣建模技术则是个性化服务的核心问题,用户兴趣模型能否准确地反映用户的兴趣决定了系统提供个性化服务的质量。
本文对当前主要的web挖掘技术和用户兴趣建模技术进行了分析,提出了把用户浏览内容分析和浏览行为分析相结合的用户兴趣挖掘模型。对本文中所涉及的技术做了初步的介绍和研究,并简单介绍了本文所采用的方法。
首先介绍了用户数据的收集。数据收集工作,在用户兴趣模型建设中是一项基础而重要的工作,主要任务是收集用户浏览页面的集合和用户在页面上的行为记录,并进行整理和组织。经过实验分析,收集的浏览内容数据只需文章的标题、首段和末段三部分,而浏览行为数据可归结为两类行为数据:用户浏览网页的时间和拉动滚动条的次数。
重点探讨了基于浏览内容的用户兴趣度分析和基于浏览行为的用户兴趣度分析。在对浏览内容的分析中,首先利用中文分词技术来进行特征向量的抽取。本地分词词典由多个单字词表组成,由这种方法建立的分词词典能很方便的添加未登录词,并且便于查找。特征词权值的计算采用改进的TF-IDF公式。对用户行为与网页兴趣度的关系计算时,则是采用建立用户行为回归方程式,根据回归方程计算出用户对所浏览页面的兴趣度。把计算出的基于页面内容的特征词权值和用户浏览行为对页面的兴趣度合成一个完整的页面特征矩阵。再采用提出的层次聚类和k-means聚类相结合的聚类方法进行聚类,得到用户的兴趣分类树模型。
通过实验来验证所提出的用户兴趣模型,与传统的用户兴趣模型进行比较,在页面兴趣分类和相似度的准确性上都有较大的提高。