论文部分内容阅读
在这个信息大爆炸的时代,研究如何对规模迅猛增长且来源多样性的数据进行可视化具有重要意义。而利用数据中的关联信息有效地辅助可视化,满足用户查询意图的多样化需求,成为当下研究的热点。通过研究发现,利用数据中的关联信息进行可视化存在两个问题。其一,在内部存储数据结构表示时,目前广泛使用树形数据结构对数据信息进行组织,虽然在浏览时层次结构清晰,但这种结构使得从根目录到查找的文件之间,只有一条唯一的通路。在用户对路径不明确的情况下,可能会在获取目标文件的过程中,进行大量的回溯。其二,在可视化方面,因树形结构不支持多路径检索,于是很多研究开始关注以Hasse图作为图形化表示的概念格结构,它通过对数据集中对象和属性之间的二元关系建立概念层次结构,不仅支持多路径检索,还具有显示对象内在关联的优点,因此将概念格应用于信息检索系统中,用于完善查询、限制搜索空间、推荐相关文档、尤其是对文档集合进行浏览。但随着概念格中概念以及概念之间关系的增加,二维平面布局的格结构容易产生边交叉现象,造成视觉混淆,导致用户浏览时遗漏目标信息。而通过三维布局构造的概念格,也会因为数据量的庞大,使得各结点交叉关联多,显示混乱,从而让用户迷失在海量的数据中。针对以上问题,本文通过结合树形结构在对海量数据可视化时层次结构清晰的优势以及概念格结构在表现数据关联关系方面的优势,提出以概念格结构存储数据信息,而在可视化时以树形结构呈现,当用户找到确定的目标对象或者模糊的目标对象时,可以通过此对象生成的子背景以少量对象和属性构造子格,呈现对象之间的关联关系,帮助用户对目标信息进行更精确的定位。拟采用形式概念分析(Formal Concept Analysis,FCA)理论对以下内容开展研究:(1)改进概念格树形可视化算法,提出多路径检索算法Lattice-to-Tree。首先,将格中的每一个对象和属性都映射到树结点中,而不是利用剪枝、对象或属性约简等方法对概念格结构进行处理;其次,对概念格中代表父子概念关系的边,不再做简单的一对一映射,而是对此边连接的父子概念求属性的差集,并为差集中的属性设置互相包含关系,生成的包含关系分别映射为树形结构中的结点和子结点的关系。(2)研究包含某个对象或属性的子格生成算法,提出子格融合算法Sub-lattice Merge。首先,计算每个对象生成的“一元对象生成子背景”,并让用户设置在可视化时应显示对象个数的阈值;其次,根据设定的阈值和各个一元对象生成子背景中对象的数量,将概念格中的对象分为可融合对象和非融合对象两类,当用户需要查看对象之间的关联关系时,非融合对象将会以生成的一元对象生成子背景构造的子格显示,而可融合对象将通过属性集合的合并,找到可依托的非融合对象生成的子格,将可融合对象添加到非融合子格中显示。最后,对以上提出的两种算法进行实现,并通过设计一个音乐文件管理系统,将两种改进算法应用到实例中,验证本研究成果的准确性、有效性。同时,改进的Lattice-to-Tree算法在进行可视化时,实现的效果更加符合用户个人浏览习惯;而通过子格“融合”的形式呈现目标对象相关的格结构,因为对象和属性的个数设定在用户最佳浏览效果范围内,不仅结构精简,同时也有利于用户发现对象之间的关联关系。