【摘 要】
:
随着互联网上信息指数级的增长,信息爆炸已经成为一个很严峻的问题。面对大量的包含重复信息的网页,想要有效地获取所需信息变得越来越困难。如何向用户提供简洁全面的信息、提
论文部分内容阅读
随着互联网上信息指数级的增长,信息爆炸已经成为一个很严峻的问题。面对大量的包含重复信息的网页,想要有效地获取所需信息变得越来越困难。如何向用户提供简洁全面的信息、提高人们获取信息的效率倍受研究者关注,因此多文档文摘成为了一个十分受关注的热门研究课题。 多文档文摘是为了达到特定用户或任务的要求,从多文档集合中提取重要信息生成精简版本的过程。本文重点研究了中文多文档文摘中的几个关键技术:句子加权模型、文摘句的选取以及文摘句的排序。具体地讲,本文对以下几个方面进行了研究: 1.对句子的加权模型进行了研究,利用对数似然比实现了主题词的自动抽取,给出了融合词汇特征、位置特征、句子长度特征的句子加权模型。实验表明,基于主题词的句子加权模型能够有效地赋予重要句子以较高的权值,从而能够生成覆盖性较好的文摘。 2.在文摘句的选取部分,提出了一种新的文摘句优选方法,该方法通过在一个较大的集合范围内逐个删除包含重要信息少的句子直到指定长度,使得生成的摘要能够最大程度地包含重要信息而且冗余信息较少。分别在中、英文语料上做了实验,对比了各种参数下的实验结果,证明了所提出的算法的有效性。 3.文摘句的顺序对用户能否正确理解原文的意思有很大影响,因此本文对文摘句的排序方法进行了研究。对现有的排序方法进行了探讨,重点分析了Majority Ordering算法,提出了一种基于内聚度的、自底向上的中文多文档文摘句子排序方法。实验结果表明,该方法要优于Majority Ordering算法。
其他文献
随着银行不断加强用户自助存取款业务,自助取款机得到越来越广泛地使用。与此同时产生的自助取款机犯罪案件数量也明显上升,而此类案件的犯罪人员往往戴有墨镜、口罩或者帽子
近年来,微博得到了飞速地发展。用户可以在微博中进行交友、聊天、发布状态,同时还可以发起话题,评论话题等。分析和挖掘微博的热门话题具有重要的意义。目前微博话题挖掘通
指挥控制系统是当前我军信息化建设的重点,而针对指挥控制系统的评估技术的研究又是系统开发和研制中的关键技术和难题之一,通过对系统进行科学合理的评估,可以确认系统性能的高
传感器网络是由大量传感器节点组成的分布式无线网络。为了实现传感器网络的安全通信,确保传感器网络中相互通信的节点间建立共享密钥是至关重要的。然而,由于传感器网络节点
随着Web2.0和企业互联网化的快速发展,O2O模式的广泛应用,电子商务的物品数目和种类日益增多。客户在网上商城购买自己满意的商品时,却需要浏览很多物品从而浪费大量的时间。
蛋白质的天然构象是由其氨基酸序列确定的,而蛋白质的生物学功能在很大程度上又依赖于其构象,因此蛋白质构象预测是蛋白质研究中发展已久但仍具有挑战性的问题,是后基因组时代生
家庭网络的增长是一个全球现象,到2007年估计将会增加到7130万。这种增长就给各种网络设备制造商提供了巨大的商机。在这样的背景下,Microsoft提出了UPnP的概念。 UPnP使网
移动互联网与物联网这两大网络的快速发展使得未来的网络面临着更高速度、更低延迟以及更高可靠度的挑战。各种各样的新兴应用使得这种挑战更加现实与紧迫。鉴于此,移动边缘
随着社会需求的不断发展,在军事、航天等高精领域中对嵌入式系统的性能和稳定性等要求也不断提高。为了开发更高性能的嵌入式系统,并行计算成为提高嵌入式系统的计算速度和可
近年来,随着互联网信息技术的不断发展,它已经成为人们获取信息最重要的途径之一。而海量、异构、复杂的网络信息的存在,使人们快速准确地获取所需信息变得更为困难。搜索引