基于百度百科的地理命名实体识别

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:jw_wanghaibing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,从海量的互联网文本中提取地理命名实体,具有成本低、效率高、实时性好等特点,必将成为一种重要的空间数据获取来源。自然语言处理技术是人工智能研究的重要课题之一,它是利用计算机模拟人的大脑对语言知识进行智能化分析、判断从而识别并获取人们想要的关键性语言信息。基于自然语言处理技术,利用计算机的高效运算能力,自动识别海量网络文本中的地理命名实体,具有重要的意义和价值。  以往关于地理命名实体识别的相关研究较少,可用于模型训练的语料相对匮乏,且制作语料具有周期长、人工成本高、标注语料不规范等缺点。本文针对这些不足,提出了采用中文百度百科文本关键词回标的方法大规模、自动化、较高准确度的制备可用标注语料,然后在此基础上通过对地理命名实体的内部特征和外部特征的分析,选用词、词长、词性、后缀词、触发词等作为特征向量,以条件随机场作为识别模型,对百度百科测试语料进行地理命名实体识别。最终结果与现有的Stanford NER工具和前人基于单字的识别算法进行比较,在准确率、召回率上都有较大的提高,综合评价因子F值提高了10%以上,达到了较为满意的效果。
其他文献
21世纪是人类依靠科技革命和知识创新可持续发展的世纪。科技资源是构成“第一生产力”的要素,是知识经济时代的第一资源。优化科技资源配置、充分发挥科技资源的作用,是各国、各地区普遍重视的问题。 重庆市北碚区在1996年成为国家可持续发展实验区(1996年称为国家社会发展综合实验区,1997年根据国家要求更名为国家可持续发展实验区)以来,坚持可持续发展战略,并按照科技部的要求,积极发展科技,还率先
自由、享乐、时髦放纵、社会进步构成了整个20世纪60年代的美国,那是一个在动荡中狂热的年代。处在社会风暴下的美国人以及他们的生活被众多摄影师悉心记录,这些镜头将带我们回到半个世纪前,去一窥那个激情澎湃的60年代。  上个世纪60年代的美国处于文化、政治和艺术革新的时代。这十年,青年们高呼着梦想自由杂乱无章地迷恋于革命、神秘学和摇滚乐,性解放与社会动荡不仅让艺术跨过现代之门,也为文化界注入了新鲜的血
本文以梅州市耕地作为研究对象,利用55年来的长序列耕地数量统计资料,分析了梅州市耕地数量变化的过程,结合相关社会经济统计资料,对影响梅州市耕地数量变化的因素作了分析,并对未
考察旅游者的消费,一直是旅游学研究的传统领域。消费是旅游者暴露在外的最显著特征之一,旅游者的消费水平即旅游花费支出也是对旅游接待地最有经济意义的一项指标。本文在对旅