融合文献内外部特征的层次Dirichlet过程主题模型研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:hrwhrw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以LDA为代表的主题模型自提出以来,就在表示文档、模拟文档的产生过程、处理文档降维、挖掘文档中隐含信息等方面取得了长足进步,如今已经被广泛应用于信息抽取、社会媒体挖掘和学术挖掘等领域。  本文首先对主题模型中的一些相关概念进行了介绍,并且从主题模型发展的历史角度,梳理了主题模型的发展脉络。然后立足于科技情报分析工作,对融合文献内外部特征的主题模型和建模主题间关系的主题模型这两大类主题模型的发展方向进行了归纳总结。在融合文献内外部特征方面,本文从融合单一外部特征和同时融合多个外部特征两个角度综述了一些典型主题模型,并对其进行了客观分析和评价。所涉及的外部特征主要包括:科研人员、时间、母体文献、合著关系以及参考文献等。而在建模主题间关系方面,主要从建模主题间关系和确定主题个数两个方面进行归纳。本文基于主题模型的这两个方面的发展趋势,建立了一种融合文献内外部特征的层次Dirichlet过程主题模型,在反映文献多种外部特征的同时又能确定主题个数。  本文在构造模型的过程中,首先将融合科研人员特征的模型(AT模型和coAT模型)中的主题个数进行非参数化处理,构造出非参数形式的AT模型和coAT模型,使得这两个模型既能反映科研人员(合著)特征,又能自动确定主题个数,并且利用吉布斯采样算法对模型进行推断。之后在这两个模型的基础上,又融入更多的外部特征,构造出AOCToT模型,使得模型既能同时反映出文献的科研人员、时间、参考文献、母体文献、科研机构等特征,又能自动计算主题个数。最后给出了融合文献的科研人员、时间、参考文献、母体文献、科研机构和参考文献等特征的AOCRToT模型的一个初步构想。  除此之外,本文还利用NIPS数据集和空气传感器领域的专利数据集对无限AT和无限coAT模型做了深层主题揭示化分析,并把不同数据集在不同模型中所得到的结果进行比较分析,对模型进行评判,验证了模型的可行性和有效性。另外,用Hindawi出版集团下的期刊中计算机领域的论文摘要数据对AOCToT模型进行了可行性和有效性验证。因此,本文对主题模型的研究,将科技情报分析工作又向前推进了一步。
其他文献
互联网教育学习便捷性,针对性与内容的前沿性愈加被年轻一代大众认可,社会也越来越意识到互联网教育工具所带来的社会价值.发达的互联网教育资源可以为退役运动员职业转型提
体育教学中,只有学生对教学内容和活动产生浓厚的兴趣,学生才能积极参与教学活动中并掌握相关知识与技能.