基于搜索引擎扩展信息的实体链接研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:flypig2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接是把文本中的实体链接到知识库中的实体的过程,该工作有效地促进了机器翻译、问答系统、信息检索、信息融合、知识库补全等领域的发展。在实体链接的研究工作中,传统的方法利用现有的知识库进行消歧。然而,现有的知识库存在更新滞后、实体信息不完整的缺点。因此,影响了依赖于“词共现”的相似度计算的精度。所以,利用外部的知识源对知识库中的实体信息进行扩展具有重要意义。基于以上探索,本文对实体链接问题展开了研究,主要研究工作如下:  (1)实体指称的候选实体是否为其目标实体具有不确定性,因此,我们利用D-S证据理论进行不确定性问题推理。本文运用证据理论融合了实体名称特征、实体指称与候选实体上下文文本相似度特征、实体流行度特征对实体指称进行消歧。并且利用搜索引擎对实体指称与候选实体上下文文本相似度特征进行了扩展。通过实验验证利用D-S证据理论结合搜索引擎进行实体链接在精度、召回率和F值上优于对比算法,证实了该方法用于实体链接的有效性。  (2)由于一些实体名称具有歧义性,为了对实体指称进行同步消歧,挖掘实体之间的语义关系,我们通过对实体建立图模型充分利用了实体间的语义联系。在图模型中,文本中的实体指称与所有候选实体组成图的节点的集合。在建立节点之间边的过程中首先利用搜索引擎扩展实体指称与候选实体上下文文本,然后通过计算相似度的方法在实体指称与候选实体之间建立边,通过挖掘间接关系的方法在候选实体之间建立边。最后通过实验验证基于图模型的实体链接算法效果更佳,优于对比算法。
其他文献
模型库是利用规范的形式存储模型以及相关信息的场所。模型库提供模型的定义、特征信息及模型代码,是模型元素的集合。本文首先对仿真模型库的概念和结构进行总结分析,通过对
数字化技术的发展和成熟,使越来越多的数字作品通过Internet进行传播,它们可以低成本、高速度地被复制和传播,但这些特性也容易被盗版者所利用,使得网络信息安全隐患正全方位
随着信息技术的发展及信息系统在社会生活各领域日益广泛且深入的应用,信息安全成为信息技术研究当中不可或缺的一部分,并越来越显示出它的重要性。操作系统的安全是整个信息
随着信息产业的不断发展,网络已经成为人们工作生活中不可缺少的重要工具。Web也随之成为人类获取信息的主要来源。Web中的数据正以每天新增一百万个页面的速度增长。到目前
随着互联网的快速发展,XML已逐渐成为互联网上数据存储与交换的标准。但是,XML文件是以树状的结构来表示,每一次的数据查询都必须从树的根节点开始搜寻读取,透过每一层的标签
随着互联网深入到大家的生活之中,与互联网技术紧密联系的无线传感器网络无疑会得到长足的发展。无线传感器网络以通常意义上来讲就是利用传感器节点对某一区域进行感知、采
“结构决定功能”是系统科学的基本观点。如果将复杂系统内部的各个元素抽象为节点,元素之间关系视为连接,那么就构成了一个具有复杂连接关系的网络,通常称为复杂网络。自然
随着网络的快速发展,网络流媒体等数字视频显得无处不在,视频压缩编码也成为数字视频技术中重要的一部分。H.264作为一种最新的视频编码标准,拥有更高的压缩率和更清晰的视频
疾病诊断是医学领域的重要课题。各种医疗机构积累了越来越多的就诊样本数据,人工对样本进行疾病分类预测的结果限于经验、决策能力等主观因素的影响难以避免地出现误差,其分
Web服务发现是指服务请求者以某种方式在不同的Web服务中找到其需要的服务。由于传统的基于关键字的Web服务发现方法存在着低查全率和低查准率等缺陷,将语义引入Web服务发现