论文部分内容阅读
地理实体属性是基础地理信息的重要组成部分,传统的地理实体属性信息只包含名称、类别、经度、纬度四个属性值。随着时代的发展,人们对地理实体属性多样化的需求日益突出,如何丰富地理实体的属性已经成为地理人日益关心的一个话题。传统的地理信息属性获取多靠野外测绘,在面对海量数据时,测量数据已经无法满足时代需求。因此如何快速、有效的丰富地理实体的属性已经是基础地理信息面临的一个重要挑战。网络文本中蕴含中大量的信息,其中也不乏地理信息,从网络文本中获取地理信息,不仅丰富了地理信息的数据来源,也解决了测绘外业获取属性数据的繁琐。本文的主要研究内容就是从网络文本中获取地理实体属性。 不同的地理实体类别有不同的属性信息,因此获取地理实体属性应首先知道其类别。本文对地理实体类别信息判定依据主要来源于两方面,一是利用地理实体名称,二是利用地理实体的上下文信息。在基于地理实体名称上,本文首先从OpenStreetMap(OSM)获取地理实体每一类别下的实例名称,以此作为基于名称分类的依据,利用支持向量机和决策树,判断地理实体所属的类别,实验结果表明这两种方法均取得了不错的实验效果,其中在分类的准确率和召回率上SVM的结果要优于决策树。在基于地理实体所处上下文上,本文利用SVM分类方法,以百度百科文本为数据源,构建分类模型,与基于名称判断地理实体类别相比,该方法具有了更好的分类结果。已知类别后,本文利用条件随机场,选取词本身、词性、词缀、触发词,单字等作为特征,利用百度百科信息框已经结构化的属性值作为已知属性值回标到百度百科正文,作为训练语料。实验结果表明,该方法也取得了较理想的准确率和召回率,与传统的自然语言处理需要大量手工标注语料相比,该方法很好的避免了人工标注语料的繁琐,节省了大量的人力、物力。