论文部分内容阅读
知识资源作为现代经济时代企业发展的第一推动力,高效的知识管理成为提升企业竞争力的关键。文档智能处理作为知识管理平台中要实现的主要功能之一,对所收集的文档做分类及摘要处理,方便后续知识利用。同时,文档分类和摘要技术作为信息处理领域的关键技术,还可以应用在其他场合。现阶段文档分类技术主要利用机器学习的方法,通过学习生成分类模型,后期利用已生成的分类模型对文档进行分类。这种方法的弊端在于分类模型一旦建立,要更改分类体系就必须建立新的分类模型,代价过高。文档摘要的问题在于文摘质量的低完备性和高冗余性。针对这两个问题,本论文提出了一种基于特征词的文档分类方法和基于多特征的去除文摘冗余的方法。基于特征词的文档分类方法为分类体系中的每个类别提取一定数量的关键词,通过统计各个类别关键词的多少决定文档所属的类别信息。基于多特征的去除文摘冗余方法,首先根据位置、标题、关键词计算文档中语句的权值,然后根据词形、词序计算语句间的相似性。得到含有冗余因子的新的文档语句权值,然后选取适量语句作为文档摘要输出。试验结果表明,基于特征词的文档分类方法与一般采用的机器学习分类方法相比,拥有相同的召回率、准确率和F1指标,能够达到实际应用水平。文档自动摘要的结果易于阅读,容易理解。实验数据显示,自动文摘准确率较高,召回率略低。表明自动文摘的准确性较高,但是完备性有待提高。总的来说,自动文摘能较好的表达文章含义。