论文部分内容阅读
关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词,也称作关键词自动标引,可以为用户提供一个简洁的内容摘要,使信息定位更加简单。本文研究从同主题的文档集中抽取关键词来发现主题的算法,主要研究成果如下:1.提出了计算多文档词语权重的ATF*PDF方法。在文档集中包含某个词语的文档数越多,该词语越可能是表达文档集主题的重要成分,ATF*PDF方法中词语权重和词语出现的文档频率成指数级,比成线性关系时有更好的关键词抽取效果。另外,该方法还考虑了文档集中单个文档大小对词语权重的影响。2.提出了基于联合权重的关键词抽取方法,并改进TextRank方法用于抽取多文档关键词。生成关键词时,考虑到候选关键词中可能存在冗余现象,本文使用“联合权重方法”联合那些相互之间语义相似度较大的词语的权重,从而调整候选关键词的排序来选择关键词;另外,考虑到表达同一主题的词语之间存在较强的语义关系,本文改进TextRank方法来使相互之间语义关系较强的词语互相加强重要性,重新计算候选关键词在TextRank模型中的权重。实验证明,和基于聚类的关键词标记方法相比,本文提出的两种方法在关键词抽取效果上均有一定的提高。本文将聚类技术与多文档关键词抽取技术相结合来构建新型的聚类搜索引擎,并和商业聚类搜索引擎Vivisimo进行了对比,阐述了各自的优缺点。最后对本文工作进行了总结并给出了多文档关键词抽取技术的下一步研究目标。