基于主题微博的人物实体关系提取研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:kyn5210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展日新月异,参与到网络中的用户越来越多,各类方便快捷的网络社交平台,例如国外的Twitter、Face Book和国内的新浪微博、网易微博等,极大的改变了人们获取信息的方式。互联网如今已经成为一个全球性的信息资源库,包含了很多有价值的信息,怎样从这些无结构化表示的文本数据中获得有价值的结构化数据信息是本文研究的重点。然而由于微博文本简短,难以准确实现微博主题分类,传统的关系提取方法也无法在主题微博语料库中正常使用。为了解决以上问题,本文针对主题微博下的人物实体关系进行了研究,主要内容包括以下几点:1.提出了一种适用于微博短文本的CWTM(couple-word topic model)主题提取模型来对微博语料进行主题分类。在数据挖掘研究领域,传统主题提取研究主要是基于长文本的英文语料,对中文的研究比较少。微博这样特殊的短文本具有网络语言新词层出不穷的鲜明特征。针对微博文本信息内容简短、表达形式多样等导致无法准确有效获取微博主题的问题,本文在此基础上提出一种基于传统主题提取DMM(Dirichlet Multinomial Mixture)改进的CWTM模型。该模型通过提取句子中的词对丰富短文本的语义信息,代替传统的词的共现的方式,不仅在某种意义上缓解了短文本词的数据稀疏性问题,而且还增强了微博短文本主题提取的挖掘效果。2.采用卷积神经网络完成主题微博中人物关系提取任务。在基于CWTM模型的基础上,利用词对信息计算每个主题语料句子中各个词的重要性,改进了基于句子级别的关键词算法。选取排名靠前的词汇作为关键词来代表主体所属的类别,同时,加上原始文本中的词向量和词位置特征,将这三个元素作为初始值输入到卷积神经网络中,从而有效防止基于深度学习的关系提取方法中仅仅依靠单一词向量学习特征的不足。在模型的参数训练阶段,为了获得更好的特征提取结果,防止具有特征性的表征信息被最大池化策略干扰,通过组合每段得分值最高的特征输出,即分段最大池化策略,作为分类器softmax的输入特征。最后,为了更充分验证本文提出的模型与算法的可操作性,在微博数据集上进行了大量相关实验与分析。实验结果表明,相比于传统的DMM主题提取模型,在相同的实验环境下CWTM模型perplexity(困惑度)更低、F-Measure值更高,提取结果更准确。本文只考虑提取家庭主题类别中的三种实体关系,通过本文设计的实验,证明了以卷积神经网络为基础进行实体关系提取的方法在主题中文语料方面具备良好的效果。
其他文献
随着互联网技术的发展,在线中文网页的数量迅速增加,互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户迅速地获取所需要的知识和信息。然而
在供应链管理模式下,单个企业之间的竞争变成了企业所在供应链之间的竞争。供应链的构建中最重要的一个环节就是评价选择供应商。从长期发展来看,核心企业应选择能保持较高的
虚拟植物生长可视化在现代农林生态研究中具有重要意义,而植物的形态发生模型和生理生态模型及其结合方式是本研究中的核心问题。论文首先在改进Open L系统的基础上,提出了植
根据移动自组网的特点,在无线通信带宽极其受限的情况下,采用组播技术实现多方通信可以节省带宽、减少网络开销,设计有效的组播路由协议是移动自组织网研究领域的重要内容之一。
随着网络技术和应用的快速发展,网络中所产生的数据也急剧增长,相应的数据存储技术和应用技术也得到快速发展,特别是云计算相关技术和数据挖掘技术的发展。云计算技术的应用
如今,网络上存在着大量的异构数据源,其中包含有海量的文本数据(FlatText),关系数据,以及XML等半格式化数据.这些数据源往往表达着相似甚至相同的语义,但彼此之间却是异构的.
本文主要探讨基于XML的电子表格文档格式转换技术。由于XML语言具有开放、可扩展等特点,越来越多的文档格式开始采用XML语言描述,其中包括UOF和Open XML。为保证文档的安全性和
本文提出了一个应用于无线传感器网络的定位算法。该定位算法具有可扩展、分布式和距离无关等特点。在无线传感器网络中,位置信息对无线传感器网络的应用至关重要。高精度、低
互联网中,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面传统搜索引擎的召回率和精确率都不能令人满意。面向主题的垂直搜索引擎的目的是提供分类精确、数
当前,全球信息技术产业正着一场声势浩大的“云计算”浪潮。云计算的资源存储在云供应商的虚拟机集群上,本地计算机只需要通过互联网发送一个任务请求,云端就能够根据用户的