论文部分内容阅读
近年来,黑灰产业已经步入了商业化运作模式,部分黑灰产运营站点提供了隐私数据的获取途径、刷单方法、空包方案等理论和技术支持,这类信息极易对互联网公司的业务和品牌形象产生不良影响。为了了解和掌握这类站点的信息,为挖掘黑灰产站点工作提供支持,设计与实现站点级的情报系统具有重要的立论意义和应用价值。针对这一需求,本文以链接关系为切入点,从已知黑灰产站点出发,寻找与其关联的站点,并对这些站点进行内容评估和行为评估,设计并实现了一套基于站点关系网络的开源情报析取系统。为了制定了合理的开源情报析取方案,本文对开源情报析取的概念和一般性流程进行了分析和研究,提取了数据获取、加工、分析三个核心环节。引用关系网络分析理论,本文设计了基于站点关系网络的开源情报析取模型,首先,将网络数据抽象为图结构,接着,导入图结构分析方法,抽取其中的社区,然后,为社区中的每一个节点建立影响力模型,并根据历史记录形成影响力时间序列趋势,最后,制定情报输出规则,输出可能存在威胁的站点。为了满足主题和关联两个方面的聚类需求,本文在模块度算法的基础上,提出了一种基于站点主题相似度与网络拓扑结构的社区发现算法,综合权衡节点的主题倾向和关联关系,结合贪心算法的思想,检测网络中的社区结构。在上述研究的基础上,本文明确系统框架逻辑和数据抽象,设计并实现了基于站点关系网络的开源情报析取系统,其中包括数据获取、主题特征抽取、关系网络构建、站点影响力趋势分析等核心功能模块:系统首先采集网络上的相关基础数据,然后,抽取数据中可以描述主题属性的关键词,再从关联和倾向两个角度出发构建关系网络,对关系网络进行社区划分,帮助分析站点特性,最后建立时间序列模型拟合关系网络中的数据变化,达到输出站点级情报的目的。综上所述,本文通过对站点关系网络的深入分析,设计并实现了开源情报析取系统,测试和应用结果表明,本系统可以从开源数据中挖掘黑灰产站点,可行性良好,能够一定程度上满足企业需求,达到了预期效果。