论文部分内容阅读
粗糙集作为不确定性分析的重要数学工具,在人工智能、数据挖掘、模式识别等领域被广泛应用。经典的Pawlak粗糙集模型存在只能够处理字符属型数据的局限性。近些年来,国内外众多学者提出了许多Pawlak粗糙集的扩展模型,其中邻域粗糙集是经典粗糙集模型的重要推广研究之一。它将Pawlak粗糙集的等价粒化方式推广成将相似的元素归为一族的邻域粒化方式,由此可以更好地处理字符属性和数值属性共存的数据样本。随着信息技术地不断进步,数据智能处理研究方向的新问题也随之出现。这为邻域粗糙集的研究与应用带来了新的挑战。例如,在双论域场景如何构建邻域粗糙集模型;邻域粒化方式与其他粒化模型的差异性应该如何表达;如何更好地利用邻域粗糙集解决实际环境中的新问题中等等。针对这些问题,我们对邻域粗糙集模型做了深入地分析与研究,主要工作包括以下几个方面:(1)面向双论域结构,提出了双论域上的邻域粗糙集模型。同时针对其下近似计算过于严格,而上近似逼近程度无法量化描述的问题,提出了变精度的双论域邻域粗糙集模型。针对双论域转单论域后不完备的信息系统,定义了容差邻域熵并讨论了基于容差邻域熵的属性对决策重要度评估方法。(2)针对不同核粒化结构存在差异性的问题,建立了多核粒化粗糙集模型,详细讨论了模型近似算子的相关性质,并提出基于多核粒化近似质量的属性对决策重要度评估方法。进一步分析了粗糙集计算可分为粒化和粗糙逼近两个步骤,总结了已有研究中多粒度表达都是在粗糙逼近这一阶段的现状,提出了基于粒化的多粒度表达思想,定义了开放多粒度熵和保守多粒度熵。最后提出了基于多粒度熵的属性对决策重要度评估方法,并通过实验验证了方法的有效性。(3)传统的属性选择方法只关注属性个体对决策重要程度却忽略了属性个体在属性子集中的贡献度。针对这一问题,首先用邻域熵重新定义属性的独立性、相关性和冗余性。进一步结合合作博弈理论,提出基于邻域熵的属性贡献度评估方法,对能够帮助其他条件属性提高分类能力的属性个体给出较高的贡献度值。在属性的选择问题中,考虑了属性贡献度和属性对决策重要度两方面因素。最后通过实验分析,验证了模型的有效性。(4)传统的偏好挖掘方法很难处理新用户与新物品同时存在的冷启动问题。针对这一现状,提出了基于双论域邻域粗糙集的偏好挖掘模型。用邻域粒子来描述具有相似关系的用户或者物品,并用双论域邻域粗糙集的下近似算子定义了偏好规则。面向常见的5分评分系统,提出了基于评分基线评估的双论域映射构建方法,通过“正映射”来挖掘代表“喜欢”的正偏好规则。最后通过实验验证了区分正、负映的合理性,并讨论了模型参数的选择问题。实验表明了本文模型相比于Pawlak双论域粗糙集模型更适用于偏好挖掘问题。总体来说,本文从邻域粒化和邻域粗糙逼近两方面来研究邻域粗糙集模型。在邻域粒化方面,提出了容差邻域熵和多粒度熵相概念,并用熵来刻画了属性的对决策的重要度和在属性子集中的贡献度,最后将这种基于熵的属性评估方法应用于属性选择问题。在邻域粗糙逼近问题研究中,我们我们讨论了使用多核粒化下近似算子来定义属性对决策重要度的问题,并将双论域邻域粗糙集模型应用于偏好挖掘问题。