论文部分内容阅读
研究前沿是科学研究的重点和难点。及时准确地把握研究前沿对于国家、机构和科研人员都具有重要意义。目前学术资源与日俱增,研究者在了解领域发展态势、把握研究前沿时面临着巨大的挑战。然而,现有研究前沿识别与分析方法尚存在一些问题。面向大数据环境下的学术资源信息处理需求,以优化现有方法为目标,本研究提出基于LDA的研究前沿识别方法以及基于生命周期的研究前沿分型和基于本体的研究前沿语义分析方法。通过梳理国内外研究现状,现有研究前沿识别方法存在以下三个主要问题:一是研究前沿识别过程中缺少识别指标;二是研究前沿的呈现方式存在一定的局限性;三是现有方法在研究前沿识别过程中忽略了文本间的语义信息。针对第一个问题,在对研究前沿的概念进行界定与辨析的基础上,以研究前沿相关理论为指导,提出识别指标。针对后两个问题,研究中提出基于LDA的识别方法,并采用专家评价法对识别结果进行准确性评价。同时,从方法原理、在实施过程的难易程度、识别结果的准确度等维度与现有方法进行对比,总结不同方法的特点、优缺点以及适用范围,为研究者在选取研究前沿识别方法方面提供辅助和参考。研究前沿分析是指采用定量方法对前沿识别结果进行深入挖掘,为前沿的解读提供更多有价值的信息。当前,研究前沿分析方法存在如下问题:现有分析方法主要是对结果的简单呈现,局限于列表、矩阵或知识图谱等形式。本研究提出基于生命周期理论的研究前沿分型和基于本体的研究前沿语义分析方法。在生命周期理论框架的指导下,结合研究前沿主题的增长率进行研究前沿的分型分析。基于本体的研究前沿语义分析,从语义类型分析和语义关联分析两个维度展开:基于本体对研究前沿主题进行概念映射,分析其语义类型;借助本体结构计算概念间的语义距离,从而分析研究前沿主题间的语义关联程度。通过理论研究与实证研究,本研究得出以下结论:(1)理论研究方面,研究前沿是一组具有较高学术关注度的最新研究主题,其内涵特征是具有“高关注度”和“新颖性”。此外,研究前沿可分为新生型、生长型、稳定型、衰退型和退出型。(2)方法研究方面,从研究前沿的识别方法和分析方法两个维度展开,提出于LDA的研究前沿识别方法,经过理论探讨与实证研究得出以下结论:一是该方法具有良好的数学基础,能够在语义层面抽取研究主题,与现有方法相比能够更好地处理大规模学术语料;二是将LDA模型与“主题新颖度”和“主题强度”两个指标相结合,能够较为准确地识别出研究前沿;三是该方法对待分析文本的格式要求低,并且与现有方法相比,研究前沿识别结果更加全面、具体。在研究前沿的分析方法方面,基于生命周期理论的研究前沿分型,能够辅助研究者了解当前某个研究前沿所处的时期,并预测其发展趋势。基于本体的研究前沿分析,能够丰富研究前沿的语义信息。(3)应用研究方面,本研究对医学信息学领域近十年的文献进行分析,识别出该领域的19个研究前沿主题。本研究的创新点主要有四点:一是界定了研究前沿的概念,并提出了研究前沿的识别指标,为准确识别前沿提供理论依据;二是提出基于LDA的研究前沿识别方法,实现了语义层面的前沿识别;三是提出了基于生命周期理论的研究前沿分型分析法和基于本体的研究前沿语义分析方法,为研究前沿的解读提供更多语义信息;四是全面准确地分析了医学信息学领域近十年的研究前沿,为该领域的研究者提供参考。本研究具有以下重要意义:(1)丰富了研究前沿的相关理论,为前沿识别指标的构建提供了理论依据。(2)提出了基于LDA的研究前沿识别方法,实现了语义层面的前沿识别,且能处理大规模学术语料,为大数据环境下的研究前沿的识别提供了方法借鉴。(3)提出了基于生命周期理论和本体的研究前沿分析方法。了解前沿的分型能够发现其所处的状态,并预测发展趋势。基于本体的前沿分析能够为研究提供更多语义信息,为前沿的解读提供了一个新的视角。(4)更好地辅助科研管理。该方法在实际应用的过程中,能够更好地辅助科研管理者进行学科布局和战略规划。