论文部分内容阅读
如今,各学科的科研文献数量都呈现快速增长的趋势,并且学科之间日益深化交叉,呈现出研究主题分支众多,发展不平衡的状态,这种情况加重了科研人员精准搜索信息的难度,也不利于科研人员理清学科的研究进展和跟踪领域前沿。本文以研究电气电子学科可再生能源领域的文献为例,作为这个重要领域的一个新尝试,将隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)和长短期记忆网络(Long Short-Term Memory,LSTM)方法运用到该领域的主题分布探测中,旨在为学术研究人员提供该领域最清晰的发展背景和组织结构。首先,本文通过应用统计分析,LDA主题模型和自回归整合移动平均模型(AutoRegressive Integrated Moving Average,ARIMA),将电气电子学科可再生能源领域文献划分为29个不同的主题,并在两个时间段内分析主题的增长特征。在此基础上,根据每个主题的发展轨迹,预测它们未来的发展热度,并分类为冷,热和稳定三种。本文还汇总了每个主题中最受欢迎的期刊和引文的统计数据,从而使研究人员和期刊编辑易于欣赏和应用,进而本文结合现有技术和文献分析了讨论度最高的主题、未来的热点主题和冷门主题,并对研究领域的发展进行了展望。其次,本文使用word2vec+LSTM模型对电气电子学科可再生能源领域进行再一次主题分类研究,在对训练数据进行人工主题标注和词向量映射基础上,基于LSTM模型分类研究领域的手段,将电气电子学科可再生能源领域文献划分为17个不同的主题,并利用LSTM对该领域的学术研究趋势进行了预测。最后,本文从多个角度对LDA和LSTM在电气电子学科可再生能源领域的主题分类研究工作进行了对比,对比结果可作为所有学科领域的参考。在此基础上,本文基于学科领域文献集的增长快、包含主题复杂等特性,提出一种适用于学科主题分类研究的LDA和LSTM融合主题分类模型,并基于融合模型对研究领域2019年的数据进行了主题分类研究。