多形态软件代码同源判定技术研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:liuandhll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,以软件代码为载体的网络安全问题频频发生,软件代码同源判定作为解决网络攻击溯源等安全问题的共性关键技术变得尤为重要,准确定位软件代码来源已成为各方关注的焦点。由于当前软件代码具备运行平台多样、变形手段繁多、表现形式复杂等多形态特点,导致其同源判定极为困难。如何有效的发现多形态软件代码同源,对增强我国网络空间安全的防护力、威慑力至关重要。面向多形态软件代码的同源判定,首先需厘清软件代码同源的概念及边界,实现其定性定量描述;其次需关注软件代码同源特征表示及其处理效率,研究新方法解决其时空开销大的问题;再次需考虑软件代码同源特征损失的应对措施,探索新思路解决其表征困难的问题;最后需针对新形态软件易变形的特点,设计新算法解决其同源判定方法适应性不足的问题。本文围绕多形态软件代码同源判定问题,深入分析了相关领域的技术发展趋势及面临的主要挑战,重点研究了多种形态软件代码的同源判定方法,并基于此构建了原型系统。主要贡献如下:(1)针对大规模软件代码同源判定时空效率不高的问题,提出了基于Motif结构的软件代码同源快速判定方法,通过对大规模软件语义结构图的有效表征,实现了大规模软件代码同源的快速判定。提出了基于函数调用图Motif结构的特征表示方法以及Motif结构提取算法,实现了Motif结构对软件代码函数调用图的表征,并设计了Motif结构及其频率分布的相似度计算方法,实现了软件代码同源快速判定。实验结果表明,本文方法在准确率、鲁棒性及耗时等方面均有明显优势,使其可应用于大规模软件代码同源的快速判定。(2)针对软件代码变形导致同源特征难以表征的问题,提出了基于混合语义的二进制代码同源判定方法,通过对多形态二进制代码潜在同源特征挖掘,实现了多形态二进制代码同源的准确判定。提出了文本语义及结构语义混合的特征表示方法,实现了文本嵌入与图嵌入相结合的混合语义表达,设计了混合语义模型嵌入孪生神经网络框架的方法,实现了二进制代码同源判定模型构建。实验结果表明,本文方法有效提升了二进制代码同源判别效果,该算法在多种测试条件下具有良好的稳定性,可支持多种形态二进制软件代码同源的准确判定。(3)针对新形态软件代码同源判定方法适应性不足的问题,提出了多维度的移动应用同源判定方法,通过对移动应用分区域的特征表示与计算,实现同源移动应用的准确识别。提出了移动应用整体、资源及代码等多维度的特征表示及针对性的处理算法,实现了不同侧面的同源判定,设计了多种相似度算法的联合及优化策略,实现了移动应用同源的准确判定。实验结果表明,本文方法在同源判定准确率和速度等方面具有显著优势,并在真实环境中表现良好,且不依赖有监督数据,可作为移动应用市场安全策略的有效补充。
其他文献
新世纪以来,随着“中非合作论坛机制”的建立,中非战略合作伙伴关系的确立,尤其是中非命运共同体的构建,中国对非洲援助秉承“义利相兼”的理念,充分彰显“平等、互助、互惠、精准、包容”的援助特征,对非洲援助的力度和深度都呈现出前所未有的提升,在国际对非洲援助领域发挥着举足轻重的作用。面对国际风云变幻,中国坚守和平与发展的时代主旋律,构建中非命运共同体将成为新世纪中国对非洲援助的首要目标和行动方向。虽然国
图像和文本是当今两种主要的信息载体,其中图像具有生动形象的特点,而文本概括性强,能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述,其在图像检索、人机对话、盲人导航、自动安防等应用中被广泛使用。本文基于深度学习对图像字幕自动生成进行研究,具体的工作包括基于全局注意力机制的图像字幕生成、基于词性先验的图像字幕生成、基于对偶学习的图像字幕生成、基于层次主题网络的故事生
人脸识别作为人工智能的典型应用之一,具有重要的实用价值和研究意义。近年来,基于深度卷积神经网络的人脸识别技术取得了突飞猛进的发展,但主要集中于二维可见光人脸识别的研究,在真实无约束场景中仍然面临许多挑战和难题。随着人脸识别应用的推广和传感器技术的发展,异质人脸识别需求应势而生且日益增大。但异质人脸图像间显著的外观变化,使现有人脸识别系统面临识别精度大幅下降的问题。本文对异质人脸识别问题及其解决方案
心音信号和心电信号作为常见的医疗时序数据,具有易采集、价格低廉、无创无损及重复性好等特点,在医学临床中被广泛应用于疾病预防、初步诊断及病情的长期监测。对这些医学时序信号进行准确处理与分析,可更好地协助医生把握病情,制定疾病预防和治疗方案,从而提升全社会的整体健康水平。经过几十年的发展,传统信号处理方法对心音信号和心电信号的分析与应用已取得长足进步,但处理该类时序数据时仍然面临诸多挑战。尤其是在面对
现代图形学应用的飞速发展对超大规模复杂场景绘制、高分辨率显示呈现、高真实感用户体验以及实时绘制效率提出了愈加严峻的挑战。尽管计算机硬件性能在近年来得到了极大提高,但仍然无法满足越来越高的需求。作为并行计算在图形学领域的具体运用,并行图形绘制系统成为解决上述问题的有效方案之一。但是多节点间的绘制任务分配一直是制约并行图形绘制系统整体性能的瓶颈,因此,研究如何实现绘制负载平衡成为影响最终绘制效果的关键
由于互联网多媒体技术的快速发展、智能手机的广泛使用以及社交网络的不断普及,人们能够随时随地在互联网上分享有趣的内容,使得互联网上不同模态的多媒体数据(如文本,图像和视频等)呈现爆炸性增长、海量性集聚的特点。如此大规模的数据标志着多媒体大数据时代的到来,同时给基于多模态学习的研究和应用带来了新的机遇和挑战。随着以深度神经网络为代表的人工智能技术的迅猛发展,如何基于深度神经网络模拟人类大脑的认知和理解
深度学习又称为深度神经网络,是人工神经网络的一种,是一种通过堆叠多层非线性变换方法对高复杂性数据进行建模的算法。在图像处理领域,深度学习主要是指深度卷积神经网络(Deep Convolutional Neural Networks,简称DCNN)。人工神经网络的概念自上个世纪四五十年代被提出以来,几经发展和沉寂,在本世纪初又开启新一轮发展热潮,展现出强大的生命力。图像目标检测的目的是判断图像中是否
计算机科学融合音乐学并推动音乐学自动化智能化发展催生了两个大的研究方向:音乐信息检索和音乐生成。其中,音乐检测是音乐信息检索领域的一项关键任务,它聚焦于研究如何从音频中检测出音乐事件及发生的位置;音乐生成是人工智能在艺术创作方面的一项探索,它关注于研究能让计算机自动进行音乐创作的算法。随着数字音乐数量的与日俱增,神经网络方法善于学习海量数据以及具备强大建模能力的特点使其成为近年来音乐检测和音乐生成
三维图形绘制在游戏娱乐、虚拟现实、科学计算可视化等众多领域有着广泛应用,而且在实时和真实方面的绘制要求越来越高。近年来,软硬件的计算性能得到了很大提升,但是面对数据规模的日益增长,大规模数据的实时绘制面临巨大挑战。本文主要针对体数据和地理地形数据的真实和实时绘制技术展开研究。对于精度高、体量大的体数据,三维可视化计算量大,同时增加光照计算更加重了计算负担。大规模地理地形数据一直存在如何高效处理和绘
神经科学研究证明,生物神经网络之间的细胞是通过神经元的动作电位(发放的脉冲)来进行相互通信的。因此,更具有生物可塑性和强大信息处理能力的第三代神经网络:脉冲神经网络(杓杰杩杫杩杮杧李来杵杲条杬李来杴杷杯杲杫,杓李李)受到了研究者的广泛关注。与传统的基于频率的神经网络不同,杓李李能够处理和提取脉冲信号中编码的时间动态特征,从而使其更加具有生物可塑性,且计算能力更强,功耗更低,在未来的移动智能领域具有