基于多源知识的命名实体链接研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:chrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处于大数据时代下,网络信息出现迅猛增长的趋势,互联网日趋发展成为一个信息覆盖面广的共享仓库,与此同时,对信息资源进行准确地理解也变得越来越困难,这是信息时代中一个亟需解决的问题。命名实体在文档中负载着主要的信息,是重要的语言单元,所以,对于一些存在歧义的命名实体的正确分析,将对文本的理解起到关键性作用,同时,对于知识库中不存在对应实体的新命名实体,需要及时发现,从而,可以将新出现的命名实体添加入知识库中,进而对其进行编辑,以此,达到扩充知识库的目的。命名实体链接技术正是解决此类问题的重要途径,将实体与知识库中的相关实体准确地建立起映射关系,继而实现自动的命名实体链接。命名实体链接技术将对解决知识库中的命名实体歧义和知识库扩充等问题起到支撑作用。在研究命名实体链接课题中,发现其中的命名实体具有多种多样的表现形式、复杂的实体间关系的指代推理等难点,本文在对已有研究工作认真对比剖析的基础上,主要进行以下研究工作:(1)多源知识库的构建,包括同义词表、人物Title表的构建,以及对知识库实体类别标识的更新,同时对知识库的实体建立索引。(2)基于Lucene的命名实体链接,利用Lucene对待链接实体所在文本抽取的特征在知识库中进行检索,如果相似度分值最高的实体符合设定的条件,则返回实体的ID。(3)基于VSM与网络验证的命名实体链接,结合百科资源与向量空间模型,得到知识库中符合条件的实体。(4)基于Ranking SVM的命名实体链接,该方法有效地融合了微博文本的表面性特征与深层语义特征,同时利用SVM模型的优秀分类能力,得到符合要求的知识库中实体的ID。最后,本文将上述三种方法分别在NLP&CC 2013和NLP&CC 2014公开的数据集上进行实验,其中,基于Ranking SVM的方法优于其他方法,具有一定的可行性。
其他文献
专利作为知识产权的核心要素,正成为各个国家和公司争相掌握的重要资源。企业的技术人员需要从专利管理系统中得到大量有价值的技术信息。对专利的实时检索、科学分析和研究已
SCORM(Sharable Content Object Reference Model)是由美国的教学管理系统全球化学习联盟(ADL:Advanced Distributed Learning)所制定的远程教育标准。SCORM标准强调电子化课
随着网络多媒体技术的快速发展,互联网上的图像等多媒体内容的数量正在以指数级的速度迅猛增长。因此,实现大规模互联网图像的有效管理和检索具有十分重要的现实意义。由于大
入侵检测系统是网络安全一个重要组成部分,可以较好地弥补传统的防火墙技术不能解决的问题。生物免疫系统与入侵检测系统有着许多相似之处,比如分布式保护、多样性、自适应性
无线传感器网络具有能量有限、通信能力有限、多跳路由、动态拓扑、节点数量众多且分布密集等特点。同时,无线传感器网络的还面临着一些分布式优化问题。如,任务动态部署、节
随着计算机技术和互联网的快速发展,社交网络、智能设备、传感器设备、云计算中心实时生成大量的信息数据,如何从中提取有价值的知识已成为一个巨大的挑战。形式概念分析由德
大数据正在成为继云计算、物联网、移动互联网之后新的信息革命高潮。无论是从数据传递及共享、数据存储,还是从数据检索及分析,信息技术正面临前所未有的挑战。信息表示和查询
软件测试是为了保证软件的正确运行而进行的一项重要活动,回归测试是软件修改后为了确认修改的正确性而进行的软件测试。回归测试策略分为重测所有(retest-all)和选择性(selec
随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合
数字图像每天都以惊人的速度产生和发布。图像中含有的信息往往比文本更加丰富,在人们的日常生活中起着至关重要的作用。因此,如何更加有效的组织、管理大型图像数据库,并且能从