论文部分内容阅读
实体链接工作已经取得了较多的关注,其工作目的是将文本中的实体指称链接到知识库中对应的实体。大部分实体链接工作都是针对论坛或者博客的长文本信息,然而微博作为一种新的社交平台,对这种短文本进行实体链接又会面临很多问题。迅速地、准确地将微博中的实体指称链接到知识库,是一项有着十分重要意义的工作。对于科学研究来说,它可以提高机器翻译的准确度、网页搜索的文档相关度,计算广告中搜索广告的点击率,以及相关领域知识库构建的准确性。为了将微博中的命名实体链接到无歧义的维基百科知识库中,本文将实体链接工作具体分为以下3个主要部分。第一部分是微博中的命名实体识别。由于考虑到英文不需要分词的特殊性质,本文将微博定位为英文微博Twitter。长文本中命名实体识别常采用基于规则、基于条件随机场的方法,但这些方法在面向微博的命名实体识别工作中,效果并不显著。本文采用标注的潜在狄利克雷主题模型,生成实体指称在实体类别上的先验分布,利用贝叶斯法则得到实体指称属于某个命名实体类别的概率。将标注的潜在狄利克雷主题模型与条件随机场的预测结果相结合,实验结果表明,融合后的模型对微博这种短文本进行命名实体识别可以取得较好的效果。第二部分是候选实体的生成及其特征提取。生成候选实体常采用基于维基百科的查询扩展方法,但是这种方法的弊处在于生成候选实体数量过多,会引入较多有歧义性的候选实体。采用传统的支持向量机模型,对这些候选实体进行筛选,得到覆盖率较高并且数量较少的候选实体。在特征提取方面,针对微博短文本的特点,用局部特征和全局特征来刻画候选实体和实体指称,采用实体链接常用的基本模型对两种类别特征进行全面的分析。第三部分是候选实体排序。采用基于排序对和基于排序列表的方法对候选实体进行排序,并且对两种方法进行了分析与比较。针对实体链接中不考虑非目标实体的排序先后顺序,采用正则化的贪心森林模型解决这一问题。实验结果表明这种改进后的梯度提升决策树方法,可以有效的提高候选实体排序的效果。