面向单幅不确定大图的频繁模式挖掘技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:tianyou424
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在军事信息系统中,军事情报分析与处理分系统占据重要地位。随着各类情报获取手段的演进,军事情报数据呈现出异构性和非结构化等特点,使得军事情报分析与处理面临极大的技术挑战。海量文本情报分析是情报分析与处理中最重要和最基础的组成部分。当前,一种从整体上把握文本情报的有效手段是构建以单个文本为节点、文本之间相互关系为联系的文档网络图,即单幅大图(网络)数据,并在此基础上开展一系列分析研判。本文以文本情报分析为应用背景研究单幅大图(网络)上的数据挖掘问题。由于噪声、测量误差、保密性、不完整性等原因,不确定性在现实世界的数据中广泛存在。作为一种具有广泛建模能力的数据模型,图数据中也存在着不确定性。除了前述的文档网络图,生物信息学、社会网络等领域中亦大量存在着不确定图。因此,针对不确定图的研究成为国内外的热点。本文使用不确定图建模文本军事情报,并在此基础上挖掘频繁模式;目前在单幅不确定大图上频繁子图挖掘的问题尚未见已公开的研究。首先,对单幅不确定大图上子图模式的支持度进行了定义,据此提出了基于枚举-评估的支持度评估方法。枚举策略采用与确定图挖掘时相同的方式,本文主要关注支持度评估过程。其次,通过证明在单幅不确定图上期望支持度的计算是#-P难的,设计了一种具有精度保证的近似算法以满足实际应用需求。然后,为进一步增强算法效率,提出了两种优化策略,一是考虑对样本图计算结果的重用,二是引入检查点机制和基于结构的上界,提前对不频繁的分枝进行剪枝。上述两种优化策略的应用提升了挖掘性能。最后,在实际数据集上进行的实验验证了该挖掘方法及优化策略的实际可用性和有效性。为了进一步评价所提技术的实际效用和意义,在真实文本情报数据上开展了应用研究。对于采集的公开文本情报数据,以文档为节点、文档间相似度为边建立文档关联。使用LDA模型为节点附加标签,使用基于知识库的算法衡量节点间相似度;当相似度大于给定阈值时,则连接一条边,并以相似度值作为边上的概率。最终建立文档网络图,并用所提技术对其进行挖掘。实验结果表明,发现的模式具有可解释性,所提挖掘技术具有较好的实际应用前景。
其他文献
中国股市由于缺乏做空机制和风险对冲工具,系统性风险高达65.7%。2005年4月8日,沪深两交易所正式向市场发布了沪深300指数,用沪深300为标的指数开展我国第一个指数期货的交易已经
随着高等院校校园网建设的迅速发展和普及,管理信息系统MIS(ManagementInformationSystem)在高校的各项管理工作中发挥着越来越重要的作用,有效地促进了高等院校的快速发展。哈
工程项目实践中,项目业主往往将自身的风险转移给承包商,导致风险分担不均衡。尽管有研究指出,这种不均衡的风险分担可能会破坏业主与承包商之间的合作关系,从而降低工程项目绩效