论文部分内容阅读
随着数据库技术的发展,企业的办公效率大大地提高了。数据库的广泛应用,使得企业存储的业务数据急剧的增长。存储于企业之中的大量数据无法转化成有效的信息,导致了“数据丰富,信息贫乏”的局面,这种情况使得企业对于数据库的投资无法转化成收益。数据仓库可以存储大量的历史数据,它的出现很好地解决了这个问题。传统的数据仓库只是从各类业务数据库之中加载数据,随着Internet的发展,Web数据日益成为人们所关注的重要数据来源。在这些数据中,Web日志是十分重要的一种行为数据,它可以帮助决策者理解用户习惯,进而做出有针对性的部署。本文就是在这样一种背景下,构建了点击流数据仓库、实施了基于隐式关联页面的用户聚类算法,并描述了用户聚类算法如何在电子商务中的应用。本文所构建的点击流数据仓库以电子商务环境为应用背景,以Web日志为重要数据源。数据仓库设计采用了Inmon所倡导的数据仓库+从属数据集市的构架,数据仓库采用关系模型构建,维度数据集市采用维度模型构建。数据仓库作为企业管理人员做出决策的数据基础,它以第三范式的形式存储了大量的、低粒度的业务历史数据。从属数据集市基于用户的需求而构造。采用数据仓库+从属数据集市架构可以很好的平衡访问效率和结构调整的灵活性。在所构建的点击流数据仓库的基础上,本文给出了一种基于向量的点击流用户聚类算法。算法将用户的点击流数据映射为向量数据,根据向量之间夹角的大小程度来判断用户之间的相似程度。论文将隐式关联页面挖掘算法所得到的关联页面组作为向量的维度。隐式关联页面可以很好地反映用户的访问习惯,更好的突出感兴趣的主题性。论文所属算法在所构建的实验性数据仓库上进行了验证。实验表明,算法能够有效地识别用户目标页面,发现两项以上的隐式关联页面。用户聚类亦可以更好地适应复杂的互联网环境。