论文部分内容阅读
由于数据信息的膨胀,文本检索经常涉及海量文档。除学术论文包含关键词外,大量的文档没有关键词。面对海量文档的检索,如果没有关键词,几乎无法处理这类检索问题。因此,要进行海量文档的信息检索,必须首先解决对文档进行准确高效的关键词自动提取。关键词自动提取是文本挖掘领域的一个分支,是文档检索、文档比较、摘要生成、文档分类和聚类等文本处理研究的基础性工作。本文研究的主要内容就是如何从一篇没有任何标引的文本中提取出能说明文章大意的主题词,即关键词。传统的人工的方法准确度很高,但效率低下,用计算机自动提取关键词,效率很高,但要解决准确度不高的问题。本文的主要工作是研究一种效率高、准确度也高的文本关键词提取方法。基于此,本文从关键词提取的一般算法入手,借助《知网》,结合统计学方法,提出新的关键词提取方法,使得提取的关键词更加准确、效率更高。主要工作如下:(1)深入研究《知网》内部结构,并对其程序化处理。(2)提出新的词语相似度计算方法。在概念层次上,引入义原类相似度的概念及计算规则,结合词语概念中主要义原类限制次要义原类和变系数法对各义原类加权计算,求得概念相似度;在词语层次上,引入词性相似度的概念,取不同词性的最大值作为词语相似度。实验结果表明,与已有方法相比,该方法有效提高了词语相似度的精确度和计算效率。(3)采用中科院分词软件对文本分词,对不同段落赋予不同段落因子,结合相应规则,用词语相似度模块处理测试文本分词结果。(4)分析现有关键词提取方法,根据其优缺点,总结新的词语权重计算方法TFIWF算法,将词频比作为文本候选关键词去噪音的权值,有效地抑制了与测试文本同类语料库对所提取关键词权重的影响,修正了TFIDF算法的偏差。实验表明,相对于传统算法不仅效率不减,而且准确度也明显提高。