基于贪心森林的微博实体链接方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:afanti76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接工作已经取得了较多的关注,其工作目的是将文本中的实体指称链接到知识库中对应的实体。大部分实体链接工作都是针对论坛或者博客的长文本信息,然而微博作为一种新的社交平台,对这种短文本进行实体链接又会面临很多问题。迅速地、准确地将微博中的实体指称链接到知识库,是一项有着十分重要意义的工作。对于科学研究来说,它可以提高机器翻译的准确度、网页搜索的文档相关度,计算广告中搜索广告的点击率,以及相关领域知识库构建的准确性。为了将微博中的命名实体链接到无歧义的维基百科知识库中,本文将实体链接工作具体分为以下3个主要部分。第一部分是微博中的命名实体识别。由于考虑到英文不需要分词的特殊性质,本文将微博定位为英文微博Twitter。长文本中命名实体识别常采用基于规则、基于条件随机场的方法,但这些方法在面向微博的命名实体识别工作中,效果并不显著。本文采用标注的潜在狄利克雷主题模型,生成实体指称在实体类别上的先验分布,利用贝叶斯法则得到实体指称属于某个命名实体类别的概率。将标注的潜在狄利克雷主题模型与条件随机场的预测结果相结合,实验结果表明,融合后的模型对微博这种短文本进行命名实体识别可以取得较好的效果。第二部分是候选实体的生成及其特征提取。生成候选实体常采用基于维基百科的查询扩展方法,但是这种方法的弊处在于生成候选实体数量过多,会引入较多有歧义性的候选实体。采用传统的支持向量机模型,对这些候选实体进行筛选,得到覆盖率较高并且数量较少的候选实体。在特征提取方面,针对微博短文本的特点,用局部特征和全局特征来刻画候选实体和实体指称,采用实体链接常用的基本模型对两种类别特征进行全面的分析。第三部分是候选实体排序。采用基于排序对和基于排序列表的方法对候选实体进行排序,并且对两种方法进行了分析与比较。针对实体链接中不考虑非目标实体的排序先后顺序,采用正则化的贪心森林模型解决这一问题。实验结果表明这种改进后的梯度提升决策树方法,可以有效的提高候选实体排序的效果。
其他文献
神经网络研究的重要意义已经为许多科学家所承认,它是计算智能发展的一个主流方向,在关于神经网络的文献中,带有一个或者更多反馈回路的神经网络被称为递归神经网络,这类神经
激烈的市场竞争和迅速变化的客户需求迫使企业需要建立一个随需应变的信息系统平台来更好的支撑其业务运营。在构建这一实时信息系统的过程中,企业首先需要建立一个消除企业内
计算机网络和通讯网络的综合发展,促成了智能网系统在通信领域的飞速发展。通讯网络在这几年的发展方向己经开始从扩展网络容量向增加和丰富业务内容的方向转变。智能网系统
中文自动分词技术是网络搜索引擎的关键技术之一,是中文信息处理中的重要环节,也是智能计算、文献标引、自然语言理解和处理的基础。在对Hash算法和现有分词词典机制研究基础上
基于自然语言描述的空间实体自动摆放技术研究是自然语言处理与计算图形学的交叉应用,实现了自然语言到三维图形的自动转换工作,使人类不用学习复杂的图形软件,就可以实现艺术创
软交换技术是下一代网络(NGN)的核心技术,而软交换技术当前的研究热点就是VoIP的技术和应用。在VoIP技术所使用的协议体系中主要包括SIP协议体系和H323协议体系。H.323网守处
信息隐藏和数字水印技术涉及广泛的数学基础,包括信息论、数理统计、小波变换、Fourier变换等描述信息载体的数学工具。对于离散化的信息,这些数学工具与矩阵变换有很大的关联,
移动自组网(MANETs)是一种不依赖于固定基础设施的多跳的无线移动通信网络,能够在任何时间、任何地点被快速地组建起来。网络中每个结点在充当主机的同时又要充当路由器;结点可
远程教育是随着现代信息技术发展而产生的一种新型的教育形式,以网络作为传输信息载体的网络教育,将多媒体技术和网络技术相结合,提供了一种新型的教育手段,改变了传统的以教
本文主要研究基于有限字符集(如QPSK调制信号)的MIMO系统盲均衡算法。具体内容如下: 第一章概括介绍MIMO盲均衡的方法。 第二章简单介绍了基于高阶统计量的恒模算法(CMA