论文部分内容阅读
随着Web技术的快速发展及广泛应用,Internet上的Web页面数目开始呈指数级的速度增长,如何结合语义知识来挖掘分析用户对Web页面的访问行为成为一个重要的研究方向。这里分别从用户的Web使用日志信息和Web页面内容信息着手,从语义距离计算、语义挖掘算法和结果序列的语义相似度分析这三个方面展开研究。在语义距离计算方面,在已有的计算方法的基础上加入页面在日志数据中的出现概率信息,由页面在本体层次树中的深度、分支度和出现概率这三个因素共同决定结点页面的语义权值,进而得到任意两个页面间的语义距离信息。实验表明,改进后的语义权值计算方法得到的结果更加合理和全面。在语义挖掘算法方面,结合Mabroukeh提出的使用语义距离来辅助挖掘的理论思想,考虑到日志数据中访问时间的有序性,以吴海燕提出的AprioriAll算法的连接条件为基础,加入改进后计算得到的语义距离信息,即在算法的连接步中除了要满足已有的连接条件外还需要考虑两个连接页面的语义距离,如果大于给定的语义距离值,则不再执行连接操作。实验表明,改进后的算法挖掘得到的频繁语义访问序列具有一定的语义相关性,算法的计算规模和执行时间也得到了一定程度的改善。在结果序列的语义相似度分析方面,结合本体和本体映射的相关理论,给出一种新的页面本体的定义形式,以页面前导符的形式按照页面内容关键词信息将所有的页面统一组织,通过对比前导符、关键词及其他本体因素的相似度来综合得到页面内容的语义相似程度,以此来对挖掘得到的访问序列进行语义相似度的分析。