【摘 要】
:
Android——作为移动设备中主流智能系统,由于系统源码的开放性以及第三方应用市场稽查力度不足,导致Android恶意软件层出不穷,对用户隐私、财产安全等诸多方面构成严重威胁。在此背景下,如何有效地检测真实场景中的Android恶意软件具有重要的理论和实际意义。近年来,研究学者们致力于Android恶意软件检测工作并取得了不错的成果,但纵观整个检测领域,仍存在两点不足:一是现有工作大多是为提升检
论文部分内容阅读
Android——作为移动设备中主流智能系统,由于系统源码的开放性以及第三方应用市场稽查力度不足,导致Android恶意软件层出不穷,对用户隐私、财产安全等诸多方面构成严重威胁。在此背景下,如何有效地检测真实场景中的Android恶意软件具有重要的理论和实际意义。近年来,研究学者们致力于Android恶意软件检测工作并取得了不错的成果,但纵观整个检测领域,仍存在两点不足:一是现有工作大多是为提升检测准确率而设计解决方案,较少考虑检测过程中的误报和漏检问题;二是这些工作忽略了真实场景中数据集本身固有的时空偏差问题,模型在判别时易陷入混乱,导致检测结果虚高。为解决上述两个问题,本文从粗细粒度Android软件度量出发,进行工作如下:1)针对第一个不足,本文综合考虑了粗粒度权限和Intent度量,设计了一种基于信息量差加权集成的检测算法。在此方法中,实现了基于Stacking算法的两层模式:在第0层中根据检测过程中的漏检和误报两大误判事件定义信息量差,在第1层中基于信息量差指导多个初级学习器进行加权集成以得到最终的判别模型。实验结果表明,本文提出的方法检测正确率在0.951~0.985之间,误报率和漏检率低至0.008和0.004,对比其他检测方法具有明显的优势。2)针对第二个不足,本文基于细粒度系统API度量,提出一个用于指导数据集进行时空度量聚类的检测框架。在此框架下,设计了一套用来确定最优聚类簇数和最佳聚类方法的约束条件,聚类生成多个具有时间属性和空间属性的数据子集。实验结果表明,经时空度量聚类后,在每个数据子集上训练的模型对与自身特性不一致的其他信息的判断更敏锐,获得更强的泛化性能,有效地缓解了真实场景中存在的时间偏差和空间偏差,支持多种类型的检测算法,从而推动整体检测水平的提升。通过实验证明,粗细粒度度量能够从不同层面描述恶意软件的行为,在此基础上训练得到的模型能够更准确地定位恶意软件,从而验证了本文方法的有效性与合理性。
其他文献
如何基于给定的输入文本描述生成与之相一致的图像是一个十分具有挑战性的问题。目前的方法大都是首先合成一张初始模糊的图像,然后提炼这张初始图像去生成高质量的图像。然而,现在大多数的方法都很难合成与输入文本描述相一致的初始图像。所以如何在初始图像不好的情况下去合成高质量的图像至关重要。在本篇论文中,为了解决这个问题,基于生成对抗网络(Generative Adversarial Networks)做了以
面部表情是最直接、有效的情感表达方式,与之相关的人脸表情识别技术也被广泛应用于人机交互、智慧医疗等多个领域。人脸表情的表示模型分为离散分类和连续维度,离散分类模型把面部表情分为六种基本表情,而连续维度模型通过建立连续的情感空间来描述复杂微妙且连续变化的表情。自然环境下的人脸复杂多变,且连续维度模型对表情进行了更加细致的划分。本文针对自然环境下的静态图片和动态视频场景下的连续维度模型的人脸表情识别问
情感估计是人机交互中至关重要的一环,让机器准确地理解用户情感可以建立起更加和谐的人机环境。由于面部表情是人类表达情感的主要方式,因此,基于人脸视频的情感估计成为近年来的研究热点。情感主要有离散分类和连续维度两种模型表示。其中,基于连续维度的情感模型将情感状态映射到一个连续的维度空间中,相较于离散分类的情感模型,它可以描述出更复杂、微妙的情感。因此,本文致力于探究自然环境下的人脸视频维度情感估计,具
随着当今社会的发展,对室内定位的需求日益增加,由于GPS等室外定位技术在室内定位的应用受到限制,目前室内多采用射频识别(Radio Frequency Identification,RFID)、红外线、超声波、Wi Fi、超宽带(Ultra-Wideband,UWB)等定位技术,其中UWB由于时间分辨率高、穿透性强、抗多径能力强等特点,使得其更适用于室内定位,而其他定位技术大都由于易受环境影响、定
在科技飞速发展的时代,科技文献数量增长的速度越来越快,但是科技文献一般篇幅较长,无法快速掌握核心内容,因此,急需一种科技文献关键短语提取方法。关键短语提取是指从一段文字中标注出能够概括该段文本核心意思的短语或词语。现有的大多数科技文献关键短语提取方法都基于词频信息,并没有包含足够的语义信息;很多方法属于单词级别,没有利用单词之间产生的短语信息,在提取多个单词的较长关键短语上效果不佳。针对上述问题,
关系抽取任务旨在从半结构化或非结构化文本中获取结构化的事实知识三元组,为知识图谱的构建提供数据支持。目前,常用的抽取方法主要是基于特征模式的关系抽取方法与基于神经网络的关系抽取方法。基于特征模式的关系抽取方法依靠手工设计的特征模板对半结构化或非结构化文本数据进行模式匹配而后提取出符合特定模式的关系知识,而基于神经网络的关系抽取方法则依赖于神经网络结构自动提取文本中与事实关系相关的上下文特征以提取关
多模态数据是指同一个事物可以有多种表现形式,包括文本、图像、音频等等。同一类的多模态数据虽然表达的事物相同,但它们之间的表达形式完全不同,存在着巨大的语义鸿沟。多模态数据随着信息技术的飞速发展不断增长,在丰富人们的信息生活的同时也带来了很多问题。如何在海量且无序的多模态数据中搜索需要的信息、识别特定的数据等问题都亟待解决。多模态研究通过一定的技术手段分析和研究不同模态之间的内部联系跨越它们之间的语
目前,生物特征识别技术已经大规模应用,这对生物特征识别技术的安全性、准确性、实时性和交互性都提出了很高的要求。在基于图像或者视频的生物特征识别技术中,感兴趣区域(ROI)的准确定位和提取非常重要和关键。掌纹识别已经成为一个新兴的生物特征识别技术,受到广泛的关注,目前,掌纹识别的ROI提取主要是针对静态图像进行提取,提取算法缺乏交互性,也难以从动态视频中有效提取ROI,为解决这个问题,本文开展了深入
随着音频编辑软件的盛行,人们为了不法目的可以对音频文件进行恶意篡改,为音频的真实性检测带来严峻挑战。其中,复制粘贴篡改是音频语义篡改中最常见的篡改方式,由于其篡改片段的属性与原始音频文件极为匹配,检测难度大,已成为多媒体取证领域研究的热点之一。本文面向数字音频展开复制粘贴篡改检测与定位研究,主要工作如下:(1)提出了一种基于常数Q倒谱系数(Constant Q Cepstral Coefficie
在现代软件工程中,软件系统通常是通过选择合适的、现成可重用的构件,然后用明晰的软件体系结构组装这些构件来进行开发。这项技术由于能够显著降低软件的开发成本和时间,已在实际的软件行业得到了广泛的应用。然而,软件测试几乎要耗费软件开发资源的一半。因此,如何合理分配测试资源,以耗费尽可能少的测试资源,谋求尽可能大的软件可靠性和尽可能少的测试成本,一直是软件工程领域中的一个热点和难点问题。特别是近年来,以美