论文部分内容阅读
互联网上包含大量价值极高的网络表格,机器却无法理解,只有标注出表格的语义信息,才能更好地利用这些结构化数据。网络表格的实体列在一定程度上表达了表格的语义信息,准确地探测实体列能够大大提升机器对表格语义的理解程度。目前,人们提出了基于知识库的实体列发现方法,这些方法仅仅依靠表头和知识库信息的匹配情况来进行实体列发现,不仅对一些表头语义模糊或者其表头不存在于知识库的表格无能为力,而且不能发现多实体列表格中的具体实体属性关系,并且算法的准确率和执行时间方面的表现也不理想。本文提出基于属性间依赖关系的实体列发现方法,主要研究工作如下:(1)提出一种基于属性间依赖关系的实体列发现方法。该方法不依赖知识库和表头信息,不仅提高了实体列的发现效率,而且增强了算法适用性。(2)提出一种适应网络表格特点的近似函数依赖检测方法。考虑表格中的噪声因素,使其能更加准确地表达网络表格属性间的函数依赖关系。(3)提出实体属性依赖强度的概念,并由此定义实体列的语义强度。由实体属性之间的依赖强度判断实体列的语义强度,进而提高最强实体列探测的准确度。(4)在基于属性间依赖关系算法的基础上引入实体属性依赖强度的概念。不仅可以按照实体列的语义强度进行实体列发现,而且还能够根据实体属性的依赖强度标注具体关系。大量实验结果表明,本文提出的近似函数依赖检测方法具有明显的降噪作用。本文提出的基于属性间依赖关系的实体列发现方法均在有效性和时间效率上有优秀的表现,并且适用性更强。