基于贪心森林的微博实体链接方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：afanti76

【摘要】

：

实体链接工作已经取得了较多的关注，其工作目的是将文本中的实体指称链接到知识库中对应的实体。大部分实体链接工作都是针对论坛或者博客的长文本信息，然而微博作为一种新的社

【作者】

：

邹先奇

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2014年期

【关键词】

：

候选实体主题模型全局特征正则化的贪心森林

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

实体链接工作已经取得了较多的关注，其工作目的是将文本中的实体指称链接到知识库中对应的实体。大部分实体链接工作都是针对论坛或者博客的长文本信息，然而微博作为一种新的社交平台，对这种短文本进行实体链接又会面临很多问题。迅速地、准确地将微博中的实体指称链接到知识库，是一项有着十分重要意义的工作。对于科学研究来说，它可以提高机器翻译的准确度、网页搜索的文档相关度，计算广告中搜索广告的点击率，以及相关领域知识库构建的准确性。为了将微博中的命名实体链接到无歧义的维基百科知识库中，本文将实体链接工作具体分为以下3个主要部分。第一部分是微博中的命名实体识别。由于考虑到英文不需要分词的特殊性质，本文将微博定位为英文微博Twitter。长文本中命名实体识别常采用基于规则、基于条件随机场的方法，但这些方法在面向微博的命名实体识别工作中，效果并不显著。本文采用标注的潜在狄利克雷主题模型，生成实体指称在实体类别上的先验分布，利用贝叶斯法则得到实体指称属于某个命名实体类别的概率。将标注的潜在狄利克雷主题模型与条件随机场的预测结果相结合，实验结果表明，融合后的模型对微博这种短文本进行命名实体识别可以取得较好的效果。第二部分是候选实体的生成及其特征提取。生成候选实体常采用基于维基百科的查询扩展方法，但是这种方法的弊处在于生成候选实体数量过多，会引入较多有歧义性的候选实体。采用传统的支持向量机模型，对这些候选实体进行筛选，得到覆盖率较高并且数量较少的候选实体。在特征提取方面，针对微博短文本的特点，用局部特征和全局特征来刻画候选实体和实体指称，采用实体链接常用的基本模型对两种类别特征进行全面的分析。第三部分是候选实体排序。采用基于排序对和基于排序列表的方法对候选实体进行排序，并且对两种方法进行了分析与比较。针对实体链接中不考虑非目标实体的排序先后顺序，采用正则化的贪心森林模型解决这一问题。实验结果表明这种改进后的梯度提升决策树方法，可以有效的提高候选实体排序的效果。

其他文献

递归神经网络的动力学行为研究

神经网络研究的重要意义已经为许多科学家所承认,它是计算智能发展的一个主流方向,在关于神经网络的文献中,带有一个或者更多反馈回路的神经网络被称为递归神经网络,这类神经

学位

神经网络时间延迟平衡点局部指数稳定吸引域标准反馈控制

基于SOA的智能企业门户研究

激烈的市场竞争和迅速变化的客户需求迫使企业需要建立一个随需应变的信息系统平台来更好的支撑其业务运营。在构建这一实时信息系统的过程中，企业首先需要建立一个消除企业内

学位

企业门户面向服务体系结构富客户端商业智能企业应用集成

基于NGN的下一代智能业务的研究与实现

计算机网络和通讯网络的综合发展,促成了智能网系统在通信领域的飞速发展。通讯网络在这几年的发展方向己经开始从扩展网络容量向增加和丰富业务内容的方向转变。智能网系统

学位

智能网SCPSSPTCAPINAP全网智能化

基于Hash算法的中文自动分词技术研究

中文自动分词技术是网络搜索引擎的关键技术之一，是中文信息处理中的重要环节，也是智能计算、文献标引、自然语言理解和处理的基础。在对Hash算法和现有分词词典机制研究基础上

学位

中文自动分词Hash算法分词词典歧义字段未登录词搜索引擎中文信息处理

自然语言描述的空间实体自动摆放技术研究

基于自然语言描述的空间实体自动摆放技术研究是自然语言处理与计算图形学的交叉应用，实现了自然语言到三维图形的自动转换工作，使人类不用学习复杂的图形软件，就可以实现艺术创

学位

自然语言射体界标方位词Java3D技术

基于H.323多媒体通信中网守的研究与实现

软交换技术是下一代网络(NGN)的核心技术,而软交换技术当前的研究热点就是VoIP的技术和应用。在VoIP技术所使用的协议体系中主要包括SIP协议体系和H323协议体系。H.323网守处

学位

多媒体VOIPH.323网守网络地址转换服务质量

矩阵分解及量化数字水印研究

信息隐藏和数字水印技术涉及广泛的数学基础，包括信息论、数理统计、小波变换、Fourier变换等描述信息载体的数学工具。对于离散化的信息，这些数学工具与矩阵变换有很大的关联，

学位

数字水印信息隐藏矩阵分解水印嵌入算法盲检测

移动自组网中可靠的多播及广播通信协议研究

移动自组网(MANETs)是一种不依赖于固定基础设施的多跳的无线移动通信网络，能够在任何时间、任何地点被快速地组建起来。网络中每个结点在充当主机的同时又要充当路由器；结点可

学位

移动自组网多播路由可靠性分析通信协议

基于移动AGENT的远程教育信息系统应用研究

远程教育是随着现代信息技术发展而产生的一种新型的教育形式,以网络作为传输信息载体的网络教育,将多媒体技术和网络技术相结合,提供了一种新型的教育手段,改变了传统的以教

学位

远程教育多Agent系统智能性移动Agent迁移

基于有限字符集的MIMO盲均衡算法

本文主要研究基于有限字符集(如QPSK调制信号)的MIMO系统盲均衡算法。具体内容如下：第一章概括介绍MIMO盲均衡的方法。第二章简单介绍了基于高阶统计量的恒模算法(CMA

学位

多输入多输出系统盲均衡有限字符集信道辨识

基于贪心森林的微博实体链接方法研究

其他学术论文