论文部分内容阅读
互联网技术的发展日新月异,参与到网络中的用户越来越多,各类方便快捷的网络社交平台,例如国外的Twitter、Face Book和国内的新浪微博、网易微博等,极大的改变了人们获取信息的方式。互联网如今已经成为一个全球性的信息资源库,包含了很多有价值的信息,怎样从这些无结构化表示的文本数据中获得有价值的结构化数据信息是本文研究的重点。然而由于微博文本简短,难以准确实现微博主题分类,传统的关系提取方法也无法在主题微博语料库中正常使用。为了解决以上问题,本文针对主题微博下的人物实体关系进行了研究,主要内容包括以下几点:1.提出了一种适用于微博短文本的CWTM(couple-word topic model)主题提取模型来对微博语料进行主题分类。在数据挖掘研究领域,传统主题提取研究主要是基于长文本的英文语料,对中文的研究比较少。微博这样特殊的短文本具有网络语言新词层出不穷的鲜明特征。针对微博文本信息内容简短、表达形式多样等导致无法准确有效获取微博主题的问题,本文在此基础上提出一种基于传统主题提取DMM(Dirichlet Multinomial Mixture)改进的CWTM模型。该模型通过提取句子中的词对丰富短文本的语义信息,代替传统的词的共现的方式,不仅在某种意义上缓解了短文本词的数据稀疏性问题,而且还增强了微博短文本主题提取的挖掘效果。2.采用卷积神经网络完成主题微博中人物关系提取任务。在基于CWTM模型的基础上,利用词对信息计算每个主题语料句子中各个词的重要性,改进了基于句子级别的关键词算法。选取排名靠前的词汇作为关键词来代表主体所属的类别,同时,加上原始文本中的词向量和词位置特征,将这三个元素作为初始值输入到卷积神经网络中,从而有效防止基于深度学习的关系提取方法中仅仅依靠单一词向量学习特征的不足。在模型的参数训练阶段,为了获得更好的特征提取结果,防止具有特征性的表征信息被最大池化策略干扰,通过组合每段得分值最高的特征输出,即分段最大池化策略,作为分类器softmax的输入特征。最后,为了更充分验证本文提出的模型与算法的可操作性,在微博数据集上进行了大量相关实验与分析。实验结果表明,相比于传统的DMM主题提取模型,在相同的实验环境下CWTM模型perplexity(困惑度)更低、F-Measure值更高,提取结果更准确。本文只考虑提取家庭主题类别中的三种实体关系,通过本文设计的实验,证明了以卷积神经网络为基础进行实体关系提取的方法在主题中文语料方面具备良好的效果。