论文部分内容阅读
随着Internet的发展和Internet中信息的迅速增长,个性化服务日益受到广大用户的青睐。作为个性化服务的核心技术,用户建模也逐渐受到研究者的重视。本文对面向个性化服务的用户建模技术进行了研究。 阐述了个性化服务的兴起,介绍了三种主要的个性化服务形式。围绕个性化服务的核心技术——用户建模,总结了用户模型的表示方法,分析了用户建模的信息来源,并对用户建模技术进行了归纳和分类。根据用户参与的程度,将用户建模技术分为用户手工定制建模、示例用户建模和自动用户建模。 分析了目前主流的用户建模方法——示例用户建模方法,指出基于用户的背景知识进行示例用户建模可以减少对用户的干扰,提高用户模型的质量,增强个性化服务系统的友好性。对基于背景知识的粗兴趣粒度示例用户建模进行了分析,提出了基于信息增益、基于粗糙集理论和基于遗传算法的粗兴趣粒度示例用户建模方法。理论分析和实验表明,所提的三种粗兴趣粒度示例用户建模方法可行而有效。采用信息论描述文档,定义了语义含糊度,讨论了单字出现概率和语义含糊度的关系,说明了出现概率高的单字对描述文档的语义贡献大。提出了基于信息论的细兴趣粒度示例用户建模方法,该方法不但可以构建细兴趣粒度用户模型,而且当用户的背景知识仅包含一个兴趣主题时仍然可以取得较好的效果,具有较好的性能。 分析了浏览行为对用户兴趣的体现。根据浏览行为的特点,将用户的浏览行为分为生理行为、显著行为和间接行为。间接行为是用户兴趣度估计的主要行为来源。采用Spearman秩相关检验和Kendall τ秩相关检验对典型的间接行为进行了相关性分析。结果表明,用户在页面上的驻留时间与其它典型的间接行为均相关,因而可以近似地代替所有间接行为。通过间接行为相关性分析,结合用户的显著行为,得到了兴趣度估计的最小浏览行为组合。提出了基于驻留时间的兴趣度估计方法和基于浏览速度的兴趣度估计方法。所提的两种用户兴趣度估计方法具有良好的效果。 分析了现有的自动用户建模方法,提出基于用户兴趣聚类进行自动用户建模。分析了用户兴趣自动聚类问题的特点,指出现有经典聚类算法大都难以满足用户兴趣自动聚类的需求。分析了现有聚类算法的思路,将聚类算法分为从簇整体出发的聚类和从对象个体出发的聚类。提出了一种新的从对象个体出发的聚类算法——基于图论的聚类算法NEOREN。对典型数据的测试结果表明,NEOREN聚类算法能够发现任意形状、大小、密度的簇,对孤立点也很健壮。NEOREN算法的突出特点是即使近邻个数k没有达到最佳取值,数据也不会被错误聚类,只是被聚成更多的小类。NEOREN聚类算法的这一特点使得其非常适合于对聚类错误敏感、而对聚类数要求不高的应用领域。参数k可以根据具体应用领域在算法中设定,而无需用户输入,从而实现自动聚国防科学技术大学研究生院学位论文类。将NEOREN聚类算法应用于用户兴趣自动聚类中。基于NROREN算法的兴趣聚类算法能够自动发现用户的真实兴趣类别,识别出用户浏览页面中的噪声,具有很好的性能。近邻个数k可以设定为20左右,以实现用户兴趣自动聚类。 提出了个性化服务系统的体系结构和用户建模模块的设计方案。个性化服务系统主要包括用户信息收集模块、用户建模模块和个性化服务模块。用户建模模块在设计时需要考虑模块的易用性、灵活性、可更新性和可修改性。提出了一个多通道的用户建模模块设计方案,集成了示例用户建模、自动用户建模和用户模型的遗忘与更新,具有较好的易用性和灵活性,同时也能跟踪用户兴趣的变化。