论文部分内容阅读
随着网络化信息技术的广泛应用,大量商业数据流随之涌现,并以几何方式保持增长,具有海量性、动态性、不确定性、漂移性、噪声性等特点,隐含着大量有价值的信息。由于数据收集不完全、软硬件环境、传输状况等因素的影响,导致大量数据流的信息不完全,其数据的真实性是具有一定的概率的。同时,数据流的动态性、漂移性使得目标概念随着时间、季节或其他因素的影响而发生改变,甚至发生根本性的改变,即发生了漂移现象,使得原有的挖掘结果不再满足新的用户需求。因此,针对不确定数据流如何进行快速有效的聚类,并及时准确地检测、分析和预测漂移的变化,从而更好地为用户提供个性化服务已成为一个研究热点。
基于以上问题,本文提出了一种融入簇存在强度的数据流聚类及漂移检测模型,主要研究内容包括以下几个方面:
第一,针对不确定的商业数据流,本文提出了一个融入不确定性的Web用户分析模型。模型由数据预处理层、聚类层、关联规则层和漂移检测层四个层次组成:第一层,对用户的背景数据和行为数据进行用户特征信息的提取及预处理;第二层,基于用户兴趣的用户聚类,对用户行为进行细分,将用户聚类成多个用户群;第三层,利用关联规则挖掘用户行为规则,得到用户行为规则库;第四层,将情境因素融入到行为模式漂移检测中,主动发现、追踪用户行为模式的变化,并分析产生变化的原因等。该模型将不确定性融合在用户行为分析中,可以对信息不完全的用户进行有效聚类、行为模式挖掘等,可充分利用信息资源,更好地反应用户的真实情况。
第二,本文根据簇的存在概率的大小提出了簇存在强度的概念,将簇分为三个等级:强簇、弱簇和过渡簇。提出了融入簇存在强度的数据流聚类算法CluCES,算法综合考虑了距离、簇的存在概率及簇存在强度三重因素对数据流聚类的结果影响,设计了一种新的候选簇的选择策略,有效保护了强簇,可以高效、准确对数据流进行聚类,提高了聚类质量。
第三,针对数据流的漂移变化,本文提出了融入簇存在强度的数据流漂移检测方法,从簇存在强度、簇产生等多角度对聚类模型的变化进行描述,通过对变化的跟踪溯源,可快速发现、定位数据流的变化情况;针对用户行为模式随时间或其他情境因素影响而发生的漂移变化,本文定义了用户行为模式变化的类别与度量方法,构建了用户行为模式检测模型,提出了行为模式变化检测算法。通过对行为规则的结果追踪分析,从而可以高效、准确地进行信息推荐和指导商业决策。