基于C/C++代码库的API调用模式挖掘研究及实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:jywang001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展及人类需求的驱动,并且数据库技术的齐头并进,这让人类有能力存储和高效管理海量数据。人类积累的数据越来越多,所谓的大数据时代因此产生。面对海量数据,能否从中找出有用信息进而对人类行为进行指导呢?答案是肯定的,数据挖掘技术要解决的就是这个问题。数据挖掘已经在各行各业得到了广泛应用。本文研究工作就是在上述大背景及需求下展开。由于C++语言兼容C语言,同时不同的开发语言语法及架构不同,API序列提取的方法不同,本文选择比较主流的语言-C/C++语言,即C/C++代码库作为本文数据挖掘研究的输入。C/C++开发人员对API使用都基于手工查找和搜索引擎查找,要找到真正需要的内容十分困难。现在的代码搜索技术虽然可以找到API使用相关的代码,但通过这种方式可以找到的代码片段非常多,逐一分析也很费时。本文工作就是基于C/C++代码库的API调用模式的挖掘研究及系统软件实现。主要工作如下:1.对C/C++语言的序列提取技术进行研究提出了一种有效的序列提取方法。2.通过设计了本应用场景下的数据库,可以远程访问数据库,为系统的并行处理打下基础。3.对聚类算法进行了研究,设计并实现了本应用下的聚类算法。4.研究了聚类效果评判的相关标准,大胆提出合理的假设,提出了本应用场景下聚类结果的评判标准。5.设计并实现搜索模块,该模块可以快速高效的对聚类结果进行查询,将查询结果返回给用户。6.设计并实现了基于C/C++代码库API调用模式挖掘系统工具。本文设计及实现的系统挖掘工具具备4种特性,如下:1.高性能,该工具能够5分钟内完成100K C/C++代码的API序列提取,平均每一万个API使用模式搜索响应时间小于2s。2.处理大数据,API挖掘工具能完成百万行级C/C++代码的API使用模式挖掘,并完成聚类分析。3.特殊功能,支持重载函数和函数作用域等C++语法分析。4.模块化模式,聚类功能不与其他功能耦合,可单独使用,支持对多个代码片段做模式挖掘和聚类分析。本文研究并实现了挖掘系统,该系统对API序列的提取是完整且有效的。该系统能够完成聚类分析,并且聚类精度较高,能够满足实际应用需求。
其他文献
随着我国社会信息化工作的全面开展,企业、政府单位陆续开发了大量的信息管理系统,但这些信息系统是在不同时期、根据当时不同需求而单独设计、开发出来的,各自面对单独的业
随着信息技术的突飞猛进,产生了大量的视频文档。视频压缩、视频编解码、计算机海量存储和信息高速传输等技术的发展解决了日益膨胀的视频信息传输和存储问题,如何对海量的视
B2C电子商务企业的销售预测直接影响到企业的采购和备库,从而对提高企业客户服务水平、提高企业的市场竞争力发挥举足轻重的作用。B2C电子商务企业和传统零售企业相比,其商品具
随着互联网技术的迅速发展,可扩展标记语言XML得到了极大的进步,已经成为Web上信息交换与数据处理的标准。由于XML数据具有描述能力强、结构信息丰富、语义明确、可扩展性好
作为一种当今流行的网络结构,P2P技术有别于传统的“客户端/服务器”模式。P2P网络当中的每一个节点都具有平等的地位,每个节点在享用其他节点提供的服务的同时也在充当服务
随着军队机械化和信息化建设的不断深入,多种新式车辆列入部队装备序列,对部队正规化现代化专业化的管理提出了更高的要求,需要运用高科技手段进行有效监管。军车牌照是军车
近年来,基于人工智能技术的问题求解、自动证明、类人答题等应用已经成为研究的热点,并不断取得新的突破。自然语言处理是人工智能研究的一个重要内容,其研究方法主要包括基
随着网络应用技术的飞速发展,流媒体技术也已经在生活中的各个领域普及起来,如:远程教育、网络视频会议、视频点播等,因此对于流媒体技术的研究也越来越受到广大学者的重视。
粗糙集理论是一种处理分析不确定或者模糊知识的数学工具,已经在模式识别、专家系统、故障诊断和决策分析等方面有了较为成功的应用。由于数据库中的数据是动态变化的,数据库
随着信息技术的发展,垃圾邮件成为互联网的主要危害之一,垃圾邮件过滤技术也逐渐成为备受关注的研究领域。在与反垃圾邮件技术对抗中,垃圾邮件发送的手段和技术也不断的更新,