论文部分内容阅读
随着信息技术的发展,尤其是因特网和大规模存储介质的普及,形成了信息的汪洋大海。因此,人们迫切需要寻找一条能够快速、准确获得所需信息的途径,随之出现了多种文本处理技术,包括信息检索、文本分类、文本摘要等。其中文本摘要技术因其既可以压缩文本,减少用户的浏览负担,又可以为其他文本处理技术提供支持,因此,机器自动文摘就成为一个非常重要的研究课题。
自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。传统的自动摘要提取方法基于词频统计提取摘要句,对文本不进行语义分析,导致摘要质量不高,而且它所产生的文摘往往很难覆盖所有主题,常常出现主题遗漏等问题。因此,针对不同题材文本具有不同的潜在主题结构这一现象,如何自适应地发现不同文本潜在的主题将会对现有文摘方法的摘要效果产生积极的影响。
为了解决上述问题,本文运用统计学的方法,提出了一种基于HowNet与自适应聚类的中文自动文摘方法。研究工作主要包括以下几个方面:
①提出了基于HowNet获得词语概念的方法;
②用概念频率统计代替传统的词形频率统计,来建立概念向量空间模型;
③基于自适应段落聚类的文本潜在主题的自动发现。
为了对系统进行客观性评测,本文运用外部评价方法即通过计算两种不同文摘方法(本文提出的方法和传统的基于词频的选取全文最大权值句子的自动文摘方法)在不同压缩率下对文本分类准确率的影响来评测文摘结果,还使用了文本主题划分正确率来评测文摘结果。试验结果证明本文提出的方法优于传统的基于词频的选取全文最大权值句子的自动文摘方法。