【摘 要】
:
多文档摘要是自然语言处理领域的热点研究问题之一。相比从一篇文档中提取出一个摘要的单文档摘要而言,多文档摘要研究的是从多篇文档中提取出一个摘要,这个摘要是对多篇文档内容的高度总结,通过多文档摘要技术可以帮助人们在短时间内掌握多篇文档的主题内容信息。近年来单文档摘要以及多文档摘要技术逐渐被广泛地采用,而多文档摘要相比单文档摘要存在着算法复杂度高、摘要可读性差、摘要冗余度高等问题,因此研究具有高质量的多
论文部分内容阅读
多文档摘要是自然语言处理领域的热点研究问题之一。相比从一篇文档中提取出一个摘要的单文档摘要而言,多文档摘要研究的是从多篇文档中提取出一个摘要,这个摘要是对多篇文档内容的高度总结,通过多文档摘要技术可以帮助人们在短时间内掌握多篇文档的主题内容信息。近年来单文档摘要以及多文档摘要技术逐渐被广泛地采用,而多文档摘要相比单文档摘要存在着算法复杂度高、摘要可读性差、摘要冗余度高等问题,因此研究具有高质量的多文档摘要自动提取算法是目前自动摘要领域的重要研究课题。本文以提高摘要质量为目标,通过对关键词提取技术等内容进行研究,开展了基于关键词密度的多文档抽取式摘要算法的研究与应用工作,主要的研究工作如下:1.针对于基于文本图的关键词提取算法的评分函数权重参数过多,语义特征考虑不足等问题,提出了一种基于k-truss图分解的关键词提取算法。该算法首先通过k-truss图分解技术获取文本图的层次结构,然后据此提取出文本的语义特征,位置特征,复杂网络特征等信息。接着通过特有的无参评分函数来计算出文本图中每个节点(单词)的重要性评分,再根据单词的评分排名提取得到关键词。最后与其它具有代表性的关键词提取算法进行了对比分析,实验结果表明所提算法在4个基准数据集上的F1指标上平均提高了0.7%,验证了本文所提算法的有效性。2.针对目前大多数基于图的多文档抽取式摘要算法在构建句子图时使用词共现作为边连接关系时忽略了较多的语义关系以及采用句子级评分函数生成的摘要冗余度较高等问题,提出了基于预训练语言模型和关键词密度的多文档抽取式摘要兼去冗余算法。该算法首先通过提出的预训练语言模型获取文档中所有句子的语义向量,接着借助余弦相似度来创建句子间的边连接关系并提出了基于关键词密度的句子评分方法来提取候选摘要,然后通过基于文本相似度的摘要去冗余框架来获取高质量无冗余的摘要。最后在其它具有代表性的多文档抽取式摘要算法进行了对比分析,实验结果表明本文所提算法在4个基准数据集上的Rouge-1,Rouge-2和Rouge-L指标上平均分别提高了2.14%,0.73%和0.52%,验证了本文所提算法的有效性。3.将所提出的多文档抽取式摘要算法应用于网页分类任务,针对目前的网页分类算法在特征提取阶段考虑了网页中太多无用的冗余特征信息导致提取得到的特征向量维数过大的问题,提出了基于多文档摘要技术的网页分类算法。该算法首先对网页进行主体内容提取,通过主题分割手法获取网页文本的各个主题段落,然后通过多文档摘要技术对主题段落进行摘要抽取从而获得整个网页的核心文本信息。接着借助预训练语言模型对摘要句进行语义编码,再基于卷积神经网络构建分类器来实现网页分类。最后在搜集到的新闻类网页分类数据集上与其他4种先进的网页分类算法进行了实验对比,实验结果表明本文所提算法在新闻类网页基准数据集上的F-measure指标上平均提高了0.9%,验证了本文所提算法的有效性。
其他文献
随着物联网技术不断完善与发展,物联网规模越来越壮大,物联网连接设备数量也急剧增加。物联网设备由于缺乏充分安全考虑,日益成为攻击者利用的工具,物联网设备安全成为影响物联网信息安全的重要因素。为满足物联网设备接入的安全需求,本文对物联网平台安全因素进行了研究,按照等级保护制度要求,从原有接入技术加入安全考虑着手,对相关的关键技术进行研究,提出了一种物联网平台安全体系结构设计,为物联网的安全发展提供支撑
利用网络将感知节点设备连接起来所构成的应用系统就是物联网,它将物理世界实体与信息系统相融合,将现实世界与虚拟世界结合在一起。为了让物联网技术得到更好的应用,就需要有效地保障来为其提供保护,网络安全等级保护从1.0时代迈进2.0时代的重要标志就是正式发布网络安全等级保护系列标准,当中对物联网安全要求予以明确。所以,将等级保护2.0框架下的互联网安全保护体系构建起来,对于物联网防御体系与物联网安全保护
随着低慢小无人机广泛应用到各个领域,其造成的安全隐患问题也越来越突出,因此有效监控低慢小无人机成为当前一个亟需解决的问题。本文面向这一背景,开展基于深度学习的视觉探测低慢小无人机算法研究,具体成果包含以下几个方面:(1)分别制作了低慢小无人机可见光和红外数据集。收集了不同场景下,包含无人机,风筝和飞鸟三类物体的可见光图像15659张,红外图像5546张,再通过标注和划分,构建了本文的实验数据集,且
毫米波雷达在智能交通、无人驾驶领域中应用广泛,可用于交通路况的感知,路口盲区危险预警以及汽车高级驾驶辅助系统(Advanced Driving Assistance System)ADAS等场景。而多目标跟踪技术作为毫米波雷达的重要组成部分,能够对道路违章、超速车辆进行识别跟踪,加强对道路交通的监控。也可以为ADAS提供精确信息,保障自动驾驶安全。因而,对多目标跟踪技术的研究具有重要的现实意义。本
超细高氯酸铵(AP)应用在推进剂中可以显著提高推进剂的燃速,但也会导致感度增加,降低其安全性。将超细AP与纳米燃烧催化剂和纳米降感剂复合可以加速超细AP的热分解,提高推进剂的燃速,又可以降低超细AP的感度。但是,纳米燃烧催化剂和纳米降感剂同时对超细AP的催化与降感研究尚不明确,无法为AP的催化热分解和降低感度提供科学指导。本文通过将纳米燃烧催化剂和纳米降感剂与超细AP进行复合,来研究其对超细AP的
TC11钛合金属于α+β型两相钛合金,具有良好的热强度、塑性、热稳定性和抗蠕变性能等综合力学性能,激光粉末床熔融(Laser Powder Bed Fusion,LPBF)技术是重要的激光增材制造技术之一。本文分析了工艺参数对LPBF成形TC11钛合金的熔道形貌、试样成形质量和拉伸试样力学性能等的影响规律,实现LPBF成形TC11钛合金的高密度和高性能,主要研究内容如下:(1)进行了TC11钛合金
智能车辆是集计算机科学、视觉传感、多信息融合、通讯、自动控制等技术于一体的高新技术融合体,凭借其在解决交通安全、提高道路通行效率等方面的优势,已经成为未来车辆研究前沿和汽车工业发展新方向。而轨迹跟踪控制技术是实现汽车智能化的关键技术之一,其直接受制于车辆底层执行机构的操纵能力,同时又与车辆的稳定性密切相关。现有轨迹跟踪策略在横、纵向协调控制以及车辆稳定性分析上存有不足,故本文研究目标是将智能车辆的
伴随伺服技术的高速发展,多电机驱动系统广泛地运用于各种工业生产过程。对于应用多电机驱动系统的装备,电机间的协调性能及电机系统的可靠性对产品质量和生产效率起着决定性作用。为提高多电机驱动系统在故障情况下的同步协调性能,本文以多台无刷直流电机组成的多电机同步协调控制系统为研究对象,针对逆变器故障问题,研究实用化的容错控制方法。本论文的主要研究内容包括:首先,在相邻交叉耦合控制结构下,提出一种基于容错协
非晶态合金作为新兴的亚稳态材料,由于长程无序的特殊结构,使其具有许多优异的性能。本文基于脉冲电沉积技术进行非晶合金的能量状态调控,制备低能超稳态Ni-P非晶合金和高能态Ni-P、Co-P纳米非晶合金。通过X射线衍射分析、扫描电子显微镜、差式扫描量热仪、综合物性测量系统等测试技术对其进行了结构和性能的表征。主要研究内容包括:(1)采用电沉积技术制备低能超稳态非晶合金。基于传统单脉冲电沉积法制备非晶态