论文部分内容阅读
处于大数据时代下,网络信息出现迅猛增长的趋势,互联网日趋发展成为一个信息覆盖面广的共享仓库,与此同时,对信息资源进行准确地理解也变得越来越困难,这是信息时代中一个亟需解决的问题。命名实体在文档中负载着主要的信息,是重要的语言单元,所以,对于一些存在歧义的命名实体的正确分析,将对文本的理解起到关键性作用,同时,对于知识库中不存在对应实体的新命名实体,需要及时发现,从而,可以将新出现的命名实体添加入知识库中,进而对其进行编辑,以此,达到扩充知识库的目的。命名实体链接技术正是解决此类问题的重要途径,将实体与知识库中的相关实体准确地建立起映射关系,继而实现自动的命名实体链接。命名实体链接技术将对解决知识库中的命名实体歧义和知识库扩充等问题起到支撑作用。在研究命名实体链接课题中,发现其中的命名实体具有多种多样的表现形式、复杂的实体间关系的指代推理等难点,本文在对已有研究工作认真对比剖析的基础上,主要进行以下研究工作:(1)多源知识库的构建,包括同义词表、人物Title表的构建,以及对知识库实体类别标识的更新,同时对知识库的实体建立索引。(2)基于Lucene的命名实体链接,利用Lucene对待链接实体所在文本抽取的特征在知识库中进行检索,如果相似度分值最高的实体符合设定的条件,则返回实体的ID。(3)基于VSM与网络验证的命名实体链接,结合百科资源与向量空间模型,得到知识库中符合条件的实体。(4)基于Ranking SVM的命名实体链接,该方法有效地融合了微博文本的表面性特征与深层语义特征,同时利用SVM模型的优秀分类能力,得到符合要求的知识库中实体的ID。最后,本文将上述三种方法分别在NLP&CC 2013和NLP&CC 2014公开的数据集上进行实验,其中,基于Ranking SVM的方法优于其他方法,具有一定的可行性。