论文部分内容阅读
互联网的飞速发展使得网络文本数据呈现爆发性的增长。快速发展的互联网在给用户带来便利的同时,也使得用户很难从海量复杂的数据中快速、准确、全面地获取自身所需的信息。文本关键词与摘要抽取作为自然语言处理领域两个重要的研究课题,其目的均为生成描述文本主旨的精简内容,从而揭示文本的关键信息。为挖掘文本数据之间潜在的关联,本文在研究关键词与摘要抽取算法的基础上,深入研究了粗糙数据推理理论,重点研究了基于图模型的TextRank排序算法。基于图模型的TextRank算法是一种有效的关键词抽取算法,在抽取关键词时可取得较高的准确度,但其仍有不足。该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大的随意性与不确定性。针对这一问题,本文提出了一种基于粗糙数据推理理论的改进TextRank关键词抽取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进:依据词义对候选关键词进行划分,再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的抽取精度有了明显地提高,证明了利用粗糙数据推理的思想能有效地改善算法抽取关键词的性能。同时,为使改进的TextRank算法考虑到外部知识对关键词抽取的影响,本文提出了基于粗糙数据推理的词向量聚类TextRank关键词抽取算法。该算法在利用粗糙数据推理挖掘候选词间潜在关联的基础上,又引入Word2Vec模型,利用其训练得到候选词向量进行聚类,并依据聚类结果对候选关键词图的节点进行非均匀的加权,进而使得单文本的外部知识融合到算法中,提高算法的抽取效果。实验结果说明,与现有的很多改进算法相比,该算法的抽取效果有一定的提高。考虑到文本关键词对摘要抽取结果的影响,本文通过对TextRank自动文本摘要算法的研究发现,该算法在进行摘要抽取时仍存在很多不足之处。首先,该算法的抽取结果与文本主题的相关性较差,且现有算法大都未考虑关键词对文本摘要句的影响,同时,算法综合的外部特征也比较片面。为解决上述问题,本文提出基于粗糙数据推理的加权图模型自动文本摘要算法。该算法基于前期对关键词的研究,得到其所需的关键词集,利用LDA主题模型对文本的主题信息进行挖掘,再综合文本的整体结构以及候选句的上下文信息对算法做出改进。实验结果表明,与经典的算法相比,改进的摘要算法的抽取效果更优。