基于粗糙数据推理的文本关键词与摘要抽取算法

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:huoniao10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展使得网络文本数据呈现爆发性的增长。快速发展的互联网在给用户带来便利的同时,也使得用户很难从海量复杂的数据中快速、准确、全面地获取自身所需的信息。文本关键词与摘要抽取作为自然语言处理领域两个重要的研究课题,其目的均为生成描述文本主旨的精简内容,从而揭示文本的关键信息。为挖掘文本数据之间潜在的关联,本文在研究关键词与摘要抽取算法的基础上,深入研究了粗糙数据推理理论,重点研究了基于图模型的TextRank排序算法。基于图模型的TextRank算法是一种有效的关键词抽取算法,在抽取关键词时可取得较高的准确度,但其仍有不足。该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大的随意性与不确定性。针对这一问题,本文提出了一种基于粗糙数据推理理论的改进TextRank关键词抽取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进:依据词义对候选关键词进行划分,再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的抽取精度有了明显地提高,证明了利用粗糙数据推理的思想能有效地改善算法抽取关键词的性能。同时,为使改进的TextRank算法考虑到外部知识对关键词抽取的影响,本文提出了基于粗糙数据推理的词向量聚类TextRank关键词抽取算法。该算法在利用粗糙数据推理挖掘候选词间潜在关联的基础上,又引入Word2Vec模型,利用其训练得到候选词向量进行聚类,并依据聚类结果对候选关键词图的节点进行非均匀的加权,进而使得单文本的外部知识融合到算法中,提高算法的抽取效果。实验结果说明,与现有的很多改进算法相比,该算法的抽取效果有一定的提高。考虑到文本关键词对摘要抽取结果的影响,本文通过对TextRank自动文本摘要算法的研究发现,该算法在进行摘要抽取时仍存在很多不足之处。首先,该算法的抽取结果与文本主题的相关性较差,且现有算法大都未考虑关键词对文本摘要句的影响,同时,算法综合的外部特征也比较片面。为解决上述问题,本文提出基于粗糙数据推理的加权图模型自动文本摘要算法。该算法基于前期对关键词的研究,得到其所需的关键词集,利用LDA主题模型对文本的主题信息进行挖掘,再综合文本的整体结构以及候选句的上下文信息对算法做出改进。实验结果表明,与经典的算法相比,改进的摘要算法的抽取效果更优。
其他文献
随着科技的飞速发展,市场对于工业产品的需求量增加、质量和功能要求提高。传统的自动化生产技术已经无法紧跟产品的发展和市场需求了。在这种背景下,柔性自动化生产线以其柔性可变、创新多样、降低成本等优点,为工业自动化智能制造提供了发展方向。而柔性自动化生产线需要大量技能型人才。目前高职院校的教学实训资源有限,不能实现学生在校培养与企业岗位就业做到完美对接,所以研究设计一套既能对接企业岗位需求,同时适合学生
学位
学位
近年来,计算机与强化学习、深度学习、云计算技术蓬勃发展,取得了长足的进步。机器人技术与云计算的结合提高了机器人运行的效率,可以将任务分配到云端完成。机器人技术与深度学习的结合可以使机器人获取更多图像方面的信息,采取更多有价值的行动。而其中强化学习的发展更是为机器人领域再次注入了新鲜的血液。强化学习与云机器人的融合在性能的提高与拓展实验方向方面具有十分广阔的前景,可以探究不同的抓取方案,完善背后的原
地铁对大幅度提升城市交通运输效率具有重要意义,我国城市地铁隧道建设正大规模开展。盾构法施工由于对地层的扰动小、受环境影响小、施工效率高等诸多优点,已成为城市地铁建设的重要施工方法。我国地域广阔,地层条件复杂多变,其中砂卵石地层就是一种典型的力学不稳定地层,在盾构掘进扰动下,地层反应较为灵敏,原有相对稳定或平衡状态容易受到破坏,形成地层损失和围岩扰动,导致地面沉降甚至塌陷,危及临近建筑物。本文以广州
学位
学位
学位
学位
学位