论文部分内容阅读
随着大数据时代的到来,从海量的互联网文本中提取地理命名实体,具有成本低、效率高、实时性好等特点,必将成为一种重要的空间数据获取来源。自然语言处理技术是人工智能研究的重要课题之一,它是利用计算机模拟人的大脑对语言知识进行智能化分析、判断从而识别并获取人们想要的关键性语言信息。基于自然语言处理技术,利用计算机的高效运算能力,自动识别海量网络文本中的地理命名实体,具有重要的意义和价值。 以往关于地理命名实体识别的相关研究较少,可用于模型训练的语料相对匮乏,且制作语料具有周期长、人工成本高、标注语料不规范等缺点。本文针对这些不足,提出了采用中文百度百科文本关键词回标的方法大规模、自动化、较高准确度的制备可用标注语料,然后在此基础上通过对地理命名实体的内部特征和外部特征的分析,选用词、词长、词性、后缀词、触发词等作为特征向量,以条件随机场作为识别模型,对百度百科测试语料进行地理命名实体识别。最终结果与现有的Stanford NER工具和前人基于单字的识别算法进行比较,在准确率、召回率上都有较大的提高,综合评价因子F值提高了10%以上,达到了较为满意的效果。