论文部分内容阅读
针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法。该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面时间间隔阀值同页面的重要程度结合起来。同时通过灵活界定内容页,并针对内容页,提出了一些启发式规则,突破了“参引长度法”所固有的一个会话中只包含一个内容页的瓶颈。该方法提高了会话识别的准确度,实验结果表明是有效的。