基于文本挖掘和表层信息的论文阅读价值评价方法

来源 :延边大学 | 被引量 : 0次 | 上传用户:carol123450
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技文献的准备是开展科研工作所必需的步骤和重要基础,目前的电子检索系统只是将根据关键词搜索出的文献按个别指标(如被引次数、发表时间等)进行简单排序,并不能为检索者提供有价值的信息和高效用的服务。因此,如何评估文献的阅读价值,为查询用户提供客观价值和主观需求相融合的知识服务并显著节约用户的查询时间是一个亟待解决的、具有重要现实意义的课题。本学位论文从文献的自身价值和相对于查询用户的价值主客观两方面来衡量一篇文献的阅读价值,提出了一种基于文献表层信息以及文本挖掘方法的文献阅读价值评价方法。首先,利用文献的表层信息对文献主题的前沿性进行了定量评价,依据评价结果来衡量文献的自身价值。在研究过程中,选取文献的关键词作为主题词,并将主题词的突发性和关注度作为衡量主题前沿性的主要依据,提出了一种新的关键词前沿性度量方法;并以此来构建前沿关键词集,同时借助所构建的前沿关键词集获取前沿文献集;依据前沿文献的标题、摘要和关键词等表层信息,提出了基于潜在语义分析的文献前沿性评估方法。其次,利用文本挖掘方法对反映用户研究背景和关注点的用户下载行为进行分析,挖掘用户兴趣,进而依据文献的表层信息来定量评价文献相对于查询用户的主观价值。在定量分析过程中,采用潜在语义索引方法压缩聚类特征空间的维数,利用层次聚类方法挖掘用户兴趣,在表征用户兴趣的潜在语义空间中定量评估新文献相对于查询用户的主观价值。最后,结合文献自身价值和相对于查询用户的主观价值,采用变换后的E-measure指标建立了文献阅读价值的综合评估模型。评估模型中的未知参数根据测试文献阅读价值峰度值的变化来确定。实验结果表明,本文提出的文献阅读价值评估方法比传统的基于单一方面因素评估文献阅读价值的方法更加合理、有效。通过关键词前沿性度量方法构建的前沿关键词比现有学术热点研究平台所得出的学术热点更能体现当前的学术研究重心。文献的前沿性评估结果与文献所属期刊的影响因子、文献的发表时间形成正相关关系,验证了本文提出的文献前沿性评估方法的合理性。
其他文献
系统全局最短路径是非线性组合优化中的经典问题之一,在实际中有着广泛的应用,最小Steiner树问题是全局最短路径研究的理论基础。因此研究最小Steiner树的全局优化算法具有重要
软件配置管理在软件开发过程和质量管理中起着重要的作用。为适应不同的软件项目开发规模和管理模式,出现了多种软件配置管理模型。本文在介绍了SCM的概念、SCM工具的发展以及
地理信息系统(GIS)是当今信息查询与发布的重要形式,本文根据油田开发工作中图形信息发布的实际情况,依据辽河油田可视化系统项目提出了基于MapX可视化图形平台的开发与研究
科学计算可视化是发达国家二十世纪八十年代后期提出并发展起来的一门新兴技术。它将科学计算过程中及计算结果的数据转换为几何图形及图像信息在屏幕上显示出来并进行交互处
在分析了一般的并发面向对象模型所具有的特点和现有的凡种经典的并发面向对象模型的基础上,提出了基于MPI的并发面向对象模型.在该模型中,将并发对象与MPI的任务对应起来,利
该文探讨了数字水印的基本原理,深入研究了文字的编码与存储,数字水印的特性及算法.针对当前数字水印技术因无法记录过程痕迹而不能有效应用的问题,提出了数字水印不仅要具有
Fountain码是一类基于Tanner图的前向纠错码,采用随机编码思想、码率可灵活地进行控制,具有鲁棒性、高效性、对信道应变性强等优点。近年来,凭借着强大的技术优势,Fountain码已经
多年以来,为了满足利用有限的带宽来传输和存储语音的需求,语音压缩一直是学术界的一个热门领域.而对于受到信道带宽困扰的用户以及需要节约能量的蜂窝式无线电话和卫星连接,
网络磁盘阵列技术是在已经很成熟的集成式磁盘阵列技术的基础上添加网络通道,并通过三方通讯协议使命令和数据流分离,从而减轻服务器的负载,大幅度提高数据传输率.但是,它需
该文首先分析了无线信道并建立了无线OFDM系统信道模型,然后阐述了OFDM系统基本原理,而后着重研究了OFDM信道估计技术.信道估计方法大致可分为基于导频(训练序列)的信道估计