中文自动摘要系统的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:redfox1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,尤其是因特网和大规模存储介质的普及,形成了信息的汪洋大海。因此,人们迫切需要寻找一条能够快速、准确获得所需信息的途径,随之出现了多种文本处理技术,包括信息检索、文本分类、文本摘要等。其中文本摘要技术因其既可以压缩文本,减少用户的浏览负担,又可以为其他文本处理技术提供支持,因此,机器自动文摘就成为一个非常重要的研究课题。 自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。传统的自动摘要提取方法基于词频统计提取摘要句,对文本不进行语义分析,导致摘要质量不高,而且它所产生的文摘往往很难覆盖所有主题,常常出现主题遗漏等问题。因此,针对不同题材文本具有不同的潜在主题结构这一现象,如何自适应地发现不同文本潜在的主题将会对现有文摘方法的摘要效果产生积极的影响。 为了解决上述问题,本文运用统计学的方法,提出了一种基于HowNet与自适应聚类的中文自动文摘方法。研究工作主要包括以下几个方面: ①提出了基于HowNet获得词语概念的方法; ②用概念频率统计代替传统的词形频率统计,来建立概念向量空间模型; ③基于自适应段落聚类的文本潜在主题的自动发现。 为了对系统进行客观性评测,本文运用外部评价方法即通过计算两种不同文摘方法(本文提出的方法和传统的基于词频的选取全文最大权值句子的自动文摘方法)在不同压缩率下对文本分类准确率的影响来评测文摘结果,还使用了文本主题划分正确率来评测文摘结果。试验结果证明本文提出的方法优于传统的基于词频的选取全文最大权值句子的自动文摘方法。
其他文献
路径规划是移动机器人研究领域中的关键技术之一,是机器人完成其它高级任务的必要基础。本文主要针对复杂环境下的移动机器人路径规划及其相关问题进行了研究,着重研究了静态未
无人机的发展与技术革新受到越来越多国家的关注,许多国家都在无人机的开发与研制工作中加大了人力和物力的投入。本文研究的主要内容是某型无人机控制系统的实时数据处理和控
目前高层建筑坍塌墙体修复施工质量检测方法无法直观显示出修复区域数值,因此提出BIM模型监管下高层建筑坍塌墙体修复施工质量检测方法.根据BIM模型特性,利用激光扫描技术获
目前冶金板带箔材料表面缺陷在线自动检测中主要采用的是计算机视觉技术,实际检测过程中,为获取用于可识别的缺陷特征,关键一步是图像分割的成功与否,而缺陷边缘检测是图像分
在当今的信息社会,通信网络已成为生活中不可或缺的工具。但是大量并发的数据信息所造成的网络拥塞,经常困扰着生活在复杂网络世界中的人们。因而分析和解决信息流的拥塞问题
输电线路检修工器具是电力抢修的重要保证和基础。当前工器具种类、型号和数量繁多,不同检修线路和检修方式,选择的工器具也不同。例如同管径的绝缘杆有多个不同尺寸的组合形式,相同用途工具尺寸差异小,容易造成混淆。因此,对输电线路检修进行标准化作业有利于提高检修工作质量,确保人身、设备安全。输电线路标准化作业涉及到检修工器具的配发,而对工器具的配发一直是增加电力检修时间、制约电力检修效率的重要因素。本文通过
零点的稳定性问题是控制系统设计中的一个重要问题。不稳定零点的存在限制了控制系统能够达到的控制性能,并且限制了一些控制技术的应用。当通过采样开关和信号保持器对一个