文档摘要算法的研究与应用

被引量 : 0次 | 上传用户:speed07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档摘要是解决“信息爆炸”和信息过载问题的一种可行途径,而且可以为广泛使用的手持便携设备生成简洁的文本,缓解其屏幕小、阅读大量信息不方便的问题。本文针对文档摘要中的文本单元排序与抽取问题、结构化摘要生成、句子压缩以及基因文本摘要等关键问题展开研究,取得了具有一定理论和实用价值的成果。本文的工作包括:1.对抽取式文档摘要的两个关键问题——文本单元的排序与抽取进行了系统的比较研究与深入分析。在标准评测数据集上的实验结果表明了pairwise和listwise排序学习方法以及基于整数线性规划的句子抽取方法的优势。进而,本文提出了一种广义感知器学习和整数规划摘要生成相结合的联合学习摘要框架,取得了较好的效果。然后本文对抽取式摘要系统的性能上限进行了探讨。2.研究结构化文档摘要中的冗余去除和内容多样化问题,提出了一种基于预定义aspects生成结构化摘要的框架,生成摘要时该框架以最大化所有aspects所描述信息需求的期望满意度为目标。对给定的aspects和文档集采用Labeled LDA模型进行建模,并基于概率推理计算各个aspect的重要性以及句子与aspect的相关性,生成结构化摘要。3.提出了一种基于马尔科夫逻辑网,通过删除单词进行英文句子压缩的方法。该方法用一阶逻辑公式表示单词的局部特征以及单词之间的相互依赖关系,判断单词是否应该删除。该方法既融合了丰富的句子特征,又以逻辑公式方便地表示全局约束。在书面和口语两个新闻数据集上的实验结果表明该方法的压缩结果好于两个最新的系统。4.研究基因文本自动摘要,实现了一个从生物学文献中自动抽取代表性句子生成基因文本摘要的系统GeneSum。该系统利用ListNet排序学习算法,融合了多种文本特征和生物学数据资源,对生物文献中的句子进行排序,然后基于整数线性规划选取代表性句子生成摘要。我们在包含7294个基因的数据集上对系统进行了评测,并对测试结果进行了深入分析。
其他文献
在热交换领域中,对高效导热管有大量需求,螺纹管正是应这种需求出现。而换热器的轻量小型化的趋势,使得其核心换热元件──换热管必须相应的适应这种趋势而向细径、薄壁、高效率
工会基层组织是工会全部工作和战斗力的基础,是工会组织密切联系职工群众,开展各项工作的承载者、实践者;我们要着重提高工会干部的自身素质,增强他们的光荣感和使命感;要着
宗教问题是影响国家社会生活的一个重要因素。社会主义国家对宗教问题处理得好坏,直接影响国家的政局稳定和社会安定,甚至关系到国家的前途和命运。戈尔巴乔夫时期苏共对于宗
应急食品运输是食品应急物流的重要组成部分。在自然灾害中,如何在规定时限内,克服运输过程中的各种困难,将应急食品保质保量的运抵需求点是具有重大意义的研究课题。本文在
目的研究手术对白内障合并急性闭角性青光眼的疗效。方法将在我院接受治疗的28例白内障合并急性闭角性青光眼患者随机分为实验组和对照组,对照组(14例)实施青光眼白内障联合
<正> 2003年7—8月间,陕西师范大学西北民族研究中心围绕2002年度国家社会科学基金项目《西北少数民族多元文化与西部大开发关系研究》,组成甘肃宁夏青海少数民族调查组,赴甘
城市管理行政执法监督的失效是法律制度未被遵守的直接原因,具体表现为城管暴力执法的持续发生。城管执法的先天不足、对城管执法监督机制的不畅以及行政责任追究制被虚置则
加害给付是合同履行过程中不适当履行的一种特殊形态,既产生了违约责任又产生了侵权责任。本文从加害给付的理论基础着手,分析了加害给付中的违约责任和侵权责任,并且就加害