论文部分内容阅读
社交网站在为公众提供多元开放服务的同时,数据呈现爆炸式增长,如何从海量数据中全面、准确地获取其重要内容变得日益重要,因此,社交短文本摘要技术成为自然语言处理领域的研究热点之一。论文以去除文摘冗余和提高文摘句与主题的相关性为研究目标,通过计算句子语义内容的相关度提高子主题划分的覆盖率去除文摘冗余,通过挖掘句子与子主题的语义关联去评估句子内容的重要性提高文摘句与主题的相关性,再融合深度学习和句义结构模型生成社交文本摘要。论文的主要成果和创新包括:(1)提出了一种融合深度学习和句义结构模型的句子相似度计算方法。针对社交短文本的句子相似度计算方法无法真实反映内容的语义相关性问题,提出了一种融合深度学习的Paragraph Vector(PV)模型和句义结构模型(CSM)的句子相似度计算方法(PV-CSM)。该方法首先引入PV模型自适应学习文本特征,通过随机梯度下降方法将词向量的全局共享语义信息分散到句子特征的每一个维度上,得到句子的特征表示;利用CSM模型抽取句子的语义格,并基于LDA模型构建知识库,对句子的语义格进行特征扩充,得到句子的特征表示;最后通过遗传算法优化PV模型计算的相似度和CSM模型计算的相似度的调节系数,得到最终的句子相似度。在NLP&&CC会议中文微博观点要素抽取评测语料上进行实验,在压缩比为1.5%的条件下,轮廓系数达到0.3842。实验结果表明,PV模型通过捕捉上下文语义信息优化了特征向量的语义表示;CSM模型从语义分析的角度揭示了词语的语义关联,通过扩充语义特征丰富了句子的语义信息,有效地避免了信息的丢失。因此,融合句子上下文信息和语义信息的句子相似度计算方法确保了句子信息的完整性,在不丢失信息的情况下完整地刻画了语句之间的内在联系,通过深化句子语义分析的层次使表达方式不同但语义上存在关联的语句间相似度计算结果更加准确。(2)提出了一种融合深度学习和句义结构模型的微博摘要方法。针对由于微博摘要子主题划分不全而导致的摘要冗余和抽取的句子与主题相关性较差的问题,提出了一种融合深度学习和句义结构模型的微博摘要方法。该方法首先在准确计算句子相似度基础上得到相似度邻接矩阵,用k-means聚类实现子主题划分;然后,通过CSM模型提取句子的语义特征,并对邻接矩阵和语义特征综合加权得到句子的关联特征,再结合句子的语义特征和关联特征计算句子权值;最后,按照子主题重要度排序以句子权值为指标依次从子主题内抽取句子组成文摘。在NLP&&CC会议中文微博观点要素抽取评测语料上进行实验,在压缩比为0.5%的条件下ROUGE-1值达到0.42634,压缩比为1.0%的条件下ROUGE-1值达到0.5018,压缩比为1.5%的条件下ROUGE-1值达到0.53717。实验结果表明,考虑句子语义相关性的相似度计算方法为子主题划分奠定了基础,提高了子主题划分的覆盖率从而降低了摘要冗余。同时,综合考虑句子内部语义特征和外部关联特征的句子权值计算方法减少了子主题内和子主题间的信息冗余,保证句子信息覆盖率的同时提高了对主题的关联度,从而使得生成的摘要与主题相关度更高。(3)构建了一个针对社交短文本的摘要系统,实现自动摘要的功能。为了实现从社交短文本中抽取包含主要内容的文摘,在Windows操作系统下,利用C++和Python编程语言,设计并实现了一种融合深度学习和句义结构模型的微博摘要原型系统。该系统的主要功能包括:预处理、句子相似度计算、子主题划分、句子权值计算、句子抽取和文摘评价。系统中各模块相互独立,在模块间采用文件的方式进行数据交互,降低模块间的耦合度,可靠性高、可扩展性强。