论文部分内容阅读
随着数据挖掘和万维网技术的结合,使得从收集到的访问Internet网站日志记录中进行数据挖掘成为可能。将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,便形成了Web日志访问模式挖掘。Web日志访问模式挖掘是从Web访问日志中挖掘有用的用户访问,用于找出最频繁访问时间、关联模式、序列模式、聚类模式、分类模式及Web访问趋势等,这对于优化站点结构、为不同类别的用户提供个性化的服务具有重要意义。Web日志访问模式挖掘是目前数据挖掘领域的热点,本文针对Web使用的数据源的特点,详细论述了Web日志访问模式挖掘的概念、方法和过程。首先,本文对Web日志挖掘数据预处理的进行了研究。Web日志挖掘的对象不是网络上的原始数据而是从用户和网络交互过程中抽取出来的访问数据,它包括所请求的URL、发出请求的IP地址和时间戳等,这些数据提供了有关用户访问的丰富信息。本文在这部分的研究重点是如何提取有关用户访问的特征(如用户的访问行为、频度、内容等),以及建立基于用户访问行为的数据模型。其次,对基于粗糙集理论的Web日志访问模式挖掘的研究。在粗糙集理论中,知识被看成是一种分类能力,即在域上构造分区的能力。本文在基于粗糙集理论的思想上对预处理后的数据进行离散化,并给出了一种数据模型,使用约简算法约简而且提取出稳定的分类规则。由于Web日志中事务的类与类之间边界的不确定性,还给出了一种新的使用粗糙集理论对Web事务中用户存取模式进行聚类的方法,该方法既考虑了事务数据的序列次序也顾及了其集合的内容,建立在实验集上的实验结果表明该算法是可行的。最后,指出了本论文需进一步研究解决的问题,并对下一步Web日志挖掘研究进行了展望。