网络文本中地理实体属性抽取研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:qwer2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地理实体属性是基础地理信息的重要组成部分,传统的地理实体属性信息只包含名称、类别、经度、纬度四个属性值。随着时代的发展,人们对地理实体属性多样化的需求日益突出,如何丰富地理实体的属性已经成为地理人日益关心的一个话题。传统的地理信息属性获取多靠野外测绘,在面对海量数据时,测量数据已经无法满足时代需求。因此如何快速、有效的丰富地理实体的属性已经是基础地理信息面临的一个重要挑战。网络文本中蕴含中大量的信息,其中也不乏地理信息,从网络文本中获取地理信息,不仅丰富了地理信息的数据来源,也解决了测绘外业获取属性数据的繁琐。本文的主要研究内容就是从网络文本中获取地理实体属性。  不同的地理实体类别有不同的属性信息,因此获取地理实体属性应首先知道其类别。本文对地理实体类别信息判定依据主要来源于两方面,一是利用地理实体名称,二是利用地理实体的上下文信息。在基于地理实体名称上,本文首先从OpenStreetMap(OSM)获取地理实体每一类别下的实例名称,以此作为基于名称分类的依据,利用支持向量机和决策树,判断地理实体所属的类别,实验结果表明这两种方法均取得了不错的实验效果,其中在分类的准确率和召回率上SVM的结果要优于决策树。在基于地理实体所处上下文上,本文利用SVM分类方法,以百度百科文本为数据源,构建分类模型,与基于名称判断地理实体类别相比,该方法具有了更好的分类结果。已知类别后,本文利用条件随机场,选取词本身、词性、词缀、触发词,单字等作为特征,利用百度百科信息框已经结构化的属性值作为已知属性值回标到百度百科正文,作为训练语料。实验结果表明,该方法也取得了较理想的准确率和召回率,与传统的自然语言处理需要大量手工标注语料相比,该方法很好的避免了人工标注语料的繁琐,节省了大量的人力、物力。
其他文献
分析检测生物样品中所关注的物质是否存在、测定其中的成分含量、检测成分含量的变化、表征成分结构有多种手段。其中生物传感器具有高度的选择性、极高的灵敏度、响应快、样品用量少、体积小、准确度高等优点,已经被广泛的应用在医学、生物工程、食品工业和环境污染物检测等领域。传统的生物传感器换能器的栅介质材料为Si02,随着生物传感器的发展,绝缘栅介质层等效厚度已减小到纳米量级,超薄的Si02作为栅介质材料导致换
高速公路软土路基沉降预测一直以来都是岩土工程界的难点问题,其预测结果准确与否直接影响到高速公路建设质量。现有的路基沉降理论研究虽然取得了长足的进步,但是路基施工期间
国土资源是国民经济和社会的命脉,作为一种不可再生的资源,它在国民经济建设和社会生活中发挥着越来越重要的作用。近年来,随着土地管理各项业务工作的全面开展特别是城镇地籍调
麻栎(Quercus acutissima)在我国分布广泛,种质丰富,用途多样,是重要的造林树种。本文对不同种源麻栎苗期生长差异、物候和光合日变化进行了测定,并在此基础上分析了NaCl盐胁迫下
本文以GF-1卫星中高分辨率多光谱数据为数据源,研究了基于先验地表反射率数据集的气溶胶光学厚度(AOD)反演方法。其基本思想是:在现有的地表反射率数据集的支持下确定多光谱图
在国民经济建设和国防建设中,各项工程建设的规划、设计阶段,都需要了解工程建设地区的地形和环境条件等资料,以便使规划、设计符合实际情况。在一般情况下,都是以地形图的形式提