融合深度学习和句义结构模型的微博摘要方法研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:liyan76669956
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网站在为公众提供多元开放服务的同时,数据呈现爆炸式增长,如何从海量数据中全面、准确地获取其重要内容变得日益重要,因此,社交短文本摘要技术成为自然语言处理领域的研究热点之一。论文以去除文摘冗余和提高文摘句与主题的相关性为研究目标,通过计算句子语义内容的相关度提高子主题划分的覆盖率去除文摘冗余,通过挖掘句子与子主题的语义关联去评估句子内容的重要性提高文摘句与主题的相关性,再融合深度学习和句义结构模型生成社交文本摘要。论文的主要成果和创新包括:(1)提出了一种融合深度学习和句义结构模型的句子相似度计算方法。针对社交短文本的句子相似度计算方法无法真实反映内容的语义相关性问题,提出了一种融合深度学习的Paragraph Vector(PV)模型和句义结构模型(CSM)的句子相似度计算方法(PV-CSM)。该方法首先引入PV模型自适应学习文本特征,通过随机梯度下降方法将词向量的全局共享语义信息分散到句子特征的每一个维度上,得到句子的特征表示;利用CSM模型抽取句子的语义格,并基于LDA模型构建知识库,对句子的语义格进行特征扩充,得到句子的特征表示;最后通过遗传算法优化PV模型计算的相似度和CSM模型计算的相似度的调节系数,得到最终的句子相似度。在NLP&&CC会议中文微博观点要素抽取评测语料上进行实验,在压缩比为1.5%的条件下,轮廓系数达到0.3842。实验结果表明,PV模型通过捕捉上下文语义信息优化了特征向量的语义表示;CSM模型从语义分析的角度揭示了词语的语义关联,通过扩充语义特征丰富了句子的语义信息,有效地避免了信息的丢失。因此,融合句子上下文信息和语义信息的句子相似度计算方法确保了句子信息的完整性,在不丢失信息的情况下完整地刻画了语句之间的内在联系,通过深化句子语义分析的层次使表达方式不同但语义上存在关联的语句间相似度计算结果更加准确。(2)提出了一种融合深度学习和句义结构模型的微博摘要方法。针对由于微博摘要子主题划分不全而导致的摘要冗余和抽取的句子与主题相关性较差的问题,提出了一种融合深度学习和句义结构模型的微博摘要方法。该方法首先在准确计算句子相似度基础上得到相似度邻接矩阵,用k-means聚类实现子主题划分;然后,通过CSM模型提取句子的语义特征,并对邻接矩阵和语义特征综合加权得到句子的关联特征,再结合句子的语义特征和关联特征计算句子权值;最后,按照子主题重要度排序以句子权值为指标依次从子主题内抽取句子组成文摘。在NLP&&CC会议中文微博观点要素抽取评测语料上进行实验,在压缩比为0.5%的条件下ROUGE-1值达到0.42634,压缩比为1.0%的条件下ROUGE-1值达到0.5018,压缩比为1.5%的条件下ROUGE-1值达到0.53717。实验结果表明,考虑句子语义相关性的相似度计算方法为子主题划分奠定了基础,提高了子主题划分的覆盖率从而降低了摘要冗余。同时,综合考虑句子内部语义特征和外部关联特征的句子权值计算方法减少了子主题内和子主题间的信息冗余,保证句子信息覆盖率的同时提高了对主题的关联度,从而使得生成的摘要与主题相关度更高。(3)构建了一个针对社交短文本的摘要系统,实现自动摘要的功能。为了实现从社交短文本中抽取包含主要内容的文摘,在Windows操作系统下,利用C++和Python编程语言,设计并实现了一种融合深度学习和句义结构模型的微博摘要原型系统。该系统的主要功能包括:预处理、句子相似度计算、子主题划分、句子权值计算、句子抽取和文摘评价。系统中各模块相互独立,在模块间采用文件的方式进行数据交互,降低模块间的耦合度,可靠性高、可扩展性强。
其他文献
实证数据分析和模型构建一直是高校学生社团研究领域的薄弱之处。文章通过对高校学生社团的会员招收(融资)和活动举办(投资)进行研究,针对社团的融资活动,提出了羊群指数概念并进
[目的/意义]随着互联网和信息技术的发展,竞争情报系统需要不断改进。[方法/过程]本文根据工业互联网的特点,设计了基于工业互联网的竞争情报系统的总体架构,结合工业互联网
电商经济起始于淘宝,兴旺于京东,至今已有近20年发展时间。蘑菇街以女性消费者为目标,又结合腾讯系的微信和QQ两大社交媒体,具备垂直电商和社交电商两大特征。在电商市场竞争愈发激烈的今天,电商企业从最初的靠价格低来吸引客户,到后来的以质量求发展,再发展到通过服务来培养忠诚客户之后,目前已经发展到了声誉竞争时期。本文以蘑菇街平台伊人美妆网店为研究对象,选取了商品展示、成交信息、开店时间、口碑情况、客服沟
本文论述了综合评价的一般步骤,提出了一种将属性矩阵规格化的方法,并构造了一种用于综合排序的新双基点法。一个基点为理想点,另一基点为零点(反理想点)。 This paper disc
生物标记物通常是指微生物细胞的特定生化组成成分,其总量不仅与微生物量呈正相关,而且具特定结构的标记物标志着特定类群的微生物。磷脂脂肪酸(PLFA)是活体微生物质膜的重要
最近,对艺术界存在的一些违反社会道德的现象,公众有许多议论。如何有效地建构和遵守伦理守则,让正面的价值共识发挥作用,最终能够促进艺术的发展成为当下艺术领域需要正视的
7月29日,人力资源和社会保障部、国家质检总局和国家统计局组织召开国家职业分类大典修订工作委员会全体会议,审议通过了新修订的《中华人民共和国职业分类大典》(简称《职业分
报纸
随着我国社会经济的发展,土壤重金属污染逐渐受到政府管理者以及公众的关注。由于土壤重金属的来源复杂,分布广泛,土壤重金属的定量源解析在源头控制重金属污染方面尤为重要
高校"立德树人"的教育目标确立之后,德育美育相互融合的趋势日益明显,高校应积极顺应趋势,进一步达到以美育德、以美启德、以德生美的教育效果。通过梳理美育和德育的概念,分
风阳山自然保护区是森林生态类型自然保护区,针阔混交林是保护区内的重要森林类型。为明确海拔变化对高山针阔混交林地土壤微生物群落的影响及初步影响机理,了解气候变暖后典