论文部分内容阅读
科技文献的准备是开展科研工作所必需的步骤和重要基础,目前的电子检索系统只是将根据关键词搜索出的文献按个别指标(如被引次数、发表时间等)进行简单排序,并不能为检索者提供有价值的信息和高效用的服务。因此,如何评估文献的阅读价值,为查询用户提供客观价值和主观需求相融合的知识服务并显著节约用户的查询时间是一个亟待解决的、具有重要现实意义的课题。本学位论文从文献的自身价值和相对于查询用户的价值主客观两方面来衡量一篇文献的阅读价值,提出了一种基于文献表层信息以及文本挖掘方法的文献阅读价值评价方法。首先,利用文献的表层信息对文献主题的前沿性进行了定量评价,依据评价结果来衡量文献的自身价值。在研究过程中,选取文献的关键词作为主题词,并将主题词的突发性和关注度作为衡量主题前沿性的主要依据,提出了一种新的关键词前沿性度量方法;并以此来构建前沿关键词集,同时借助所构建的前沿关键词集获取前沿文献集;依据前沿文献的标题、摘要和关键词等表层信息,提出了基于潜在语义分析的文献前沿性评估方法。其次,利用文本挖掘方法对反映用户研究背景和关注点的用户下载行为进行分析,挖掘用户兴趣,进而依据文献的表层信息来定量评价文献相对于查询用户的主观价值。在定量分析过程中,采用潜在语义索引方法压缩聚类特征空间的维数,利用层次聚类方法挖掘用户兴趣,在表征用户兴趣的潜在语义空间中定量评估新文献相对于查询用户的主观价值。最后,结合文献自身价值和相对于查询用户的主观价值,采用变换后的E-measure指标建立了文献阅读价值的综合评估模型。评估模型中的未知参数根据测试文献阅读价值峰度值的变化来确定。实验结果表明,本文提出的文献阅读价值评估方法比传统的基于单一方面因素评估文献阅读价值的方法更加合理、有效。通过关键词前沿性度量方法构建的前沿关键词比现有学术热点研究平台所得出的学术热点更能体现当前的学术研究重心。文献的前沿性评估结果与文献所属期刊的影响因子、文献的发表时间形成正相关关系,验证了本文提出的文献前沿性评估方法的合理性。