论文部分内容阅读
目前,一个数据集合常常由许多用户共享。但不同的用户希望从这个数据库中获得的知识却可能不同。这意味着我们需要能够根据用户需求从数据库中挖掘满足用户需求解的有效算法。如果把用户的需求看作是一种语义,那么,建立在信息系统条件属性集合上的属性序可以理解为描述用户对需求的一种原语。这样,寻找满足用户需求解的问题可以转变为根据属性序计算reduct的问题。属性序作为一种描述用户需求的原语,对从信息系统中寻找用户需要的规则与例外有着重要的意义。因此,仔细研究属性序与信息系统reduct之间的关系,对信息系统解的计算和应用都是必要的。
基于属性序的reduct算法已经在文[WW01]中提出。由于该算法对reduct完备且其输出对给定的属性序唯一,因此可以看作是由属性序集合到reduct集合的一个映射。因为不同的属性序可以对应相同的reduct,因此这个影射不是一一的映射。这就产生了一些问题:给定一个reduct,哪些属性序与其对应?对于两个不同的属性序,是否存在直接判定其reduct相同的准则?在一定条件下,是否可以根据用户的特定需求从已知的解推断其它的解?本文基于这些问题展开讨论。主要工作包括以下几个方面:
一、通过形式化属性序reduct算法,分析了属性序集合和reduct集合之间的关系,证明了邻近属性序偶基本判定定理,给出了一系列直接判定邻近属性序偶reduct相等的判定规则。
二、提出了次属性原理,并由此构造性地证明了次属性定理。次属性定理是全文的核心,一方面,它可以作为直接判定由reduct属性向右移动获得的邻近属性序偶reduct是否相同的判定准则;另一方面,它又可以作为设计任意属性序偶reduct是否相同判定准则的基础。
三、基于次属性定理和属性范序,设计了直接判定任意属性序偶reduct是否相同的判定准则,并证明了利用次属性定理可以在属性序集合中确定具有相同reduct的属性序的范围。
四、次属性定理的证明依赖差别矩阵,它暗示的次属性算法的复杂性为O(n2×m)。由于大多数信息系统的对象的个数n远大于属性的个数m,即,n>>m,因此,基于属性—值树表示,设计了计算复杂度为O(rt×m2)的属性—值树次属性算法,并证明了它与次属性定理暗示的次属性算法等价。