论文部分内容阅读
我国自20世纪80年代以来,各领域的人口数据库相继建立,并趋于完善。但是,对人口数据的研究,仍集中在数据所具有属性的人口学分析方面。另外,将人口数据作为关系型数据进行的研究和分析,也主要集中于社会网络的特性分析上。然而,如何将已有人口数据作为关系型数据,进行有效的组织、存储、检索和可视化展示是人口数据研究和相关人口信息系统面临的问题。以某省全员人口数据库为例,库中包含该省全部实有人口数据。现有系统前台将人员以户为单位进行分组显示,但当户中人员发生迁移或发生拆户事件后,原本具有亲属或血缘关系的人口群体会逐渐分离;另外,由于在后台数据库中,人员记录之间关联的字段项只有最近邻的“父亲”、“母亲”、“子女”等关系,用户无法得知相对复杂的亲属关系。上述两种情况为人口调查、人口数据分析、家族关系分析造成了困扰,成为亟待解决的问题之一。
家谱是一种以表谱形式记载一个以血缘关系为主题的、家族世系繁衍及重要人物事迹的特殊图书形态,以人口数据信息为基本内容。本文提出以家谱的形式对人口数据进行组织、搜索和可视化展示,实现基于该省全员人口数据库的家谱信息系统——家谱树,并进行相关的数学建模、性质分析、算法设计和系统运行情况分析。
论文主要完成了以下几方面的工作:
(1)提出将宽度优先与深度限界宽度优先相结合的搜索算法——宽度优先反复加深搜索算法(简称为BFIDS),并将其用于人口数据的搜索。
(2)设计实现了提供领域知识的谱系关系知识树。针对已有人口数据中存在的关系种类较少(只存在“父亲”、“母亲”、“子女”三类关系)、无法满足用户的查询请求(例如需查询“外祖父”)的问题,设计了谱系关系知识树。知识树一方面用于对搜索得到的人员之间的路径进行转化,得到对应的两节点之间的实际亲属关系;另一方面用于对用户输入的亲属关系类型进行解释,指导搜索过程。
(3)提出以元图的结构对家谱进行可视化展示。针对已有家谱数据可视化展示形式中,边的数量随节点数量的增多而快速增长导致表现力下降的问题,提出以元图的形式对家谱进行可视化展示。将人口数据中具有夫妻关系的人员集合作为图中边的入点集,单个的孩子节点作为边的出点集,从而将“父亲-子(女)”和“母亲-子(女)”关系合并为“父母-子(女)”关系,不必存在表示“夫妻”关系的边,很大程度上降低了图中边的数量,提高了可视化展示结果的可读性和可理解性。
(4)给出并实现了基于全员人口数据库的家庭谱系关系系统模型。通过对已有的家谱信息系统进行研究分析,提出家庭谱系关系系统模型——家谱树。以全员人口数据库为基础,将本文所提出的搜索算法、谱系关系知识树和元图的可视化展示形式在系统中进行集成和实现,验证了所提出的方法的可行性和有效性。
实验结果表明,本文所提出的搜索算法与通常的宽度优先搜索算法相比时间复杂度和空间复杂度都有所减少;谱系关系知识树的形式合理,可用于对搜索结果和用户输入的亲属关系类型进行解释;元图的可视化展示形式与通常的树形展示形式相比,图中边的数量减少了一半左右,提高了可视化展示结果的可读性和可理解性。