基于全文检索的敏感信息检测系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:tianshi6868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Github已经成为当下最受欢迎的开源代码托管平台,越来越多的开发人员和企业将项目上传到Github平台上。开发人员由于疏忽和安全意识不足,将含有敏感信息的代码库上传到Github的公共区域,导致敏感信息泄露,带来了许多安全危害,因此,能够有效识别源码中的敏感信息的技术手段显得尤为重要。针对这种现状,本文基于Elasticsearch全文检索技术设计并实现了一个敏感信息检测系统,在保证搜索精确度和查询性能的基础上,能够根据关键词从海量源码文件中搜索出含有敏感信息的文档。本文深入研究了搜索引擎技术中常用的中文分词算法和排序算法。其中,中文分词算法包括:基于字符串匹配、基于词频统计以及基于语义分析等3种中文分词算法,使用基于字符串匹配算法实现的IK分词器对源码文本进行分词。排序算法包括IF-TDF算法、PageRank算法以及BM25算法,分析各个排序算法的原理和优缺点,改进BM25算法应用于搜索结果排序。考虑到数据量比较大,且数据还会持续增长,本文使用HDFS分布式文件系统来存储源码数据,优点是HDFS集群易扩展,可以通过增加节点的方式扩充存储容量,且数据不易丢失。缺点是HDFS不适合存储海量小文件,本文通过将一个项目中的所有小文件合并为一个大文件的方式解决了该问题。部署Elasticsearch集群作为搜索引擎提供全文检索功能,将HDFS集群中的源码文件读取并上传至Elasticsearch集群中,期间经过一系列优化方案提升了 Elasticsearch集群的索引性能和查询性能。基于对系统的需求分析、概要设计以及详细设计等,使用Spring Boot、Thmeleaf、MyBatis Plus、Layui等技术实现了敏感信息检测系统,最后对系统进行测试,测试结果符合预期。
其他文献
判断一个搜索引擎的成功与否,用户对搜索结果的满意度起了关键作用。由于通用搜索引擎搜索到的内容数量过多,且相关率低、重复率高、内容复杂,用户如果想要在通用搜索引擎中查询某一领域或专业的相关网页,检索过程还需花费大量精力去排除无用信息。垂直搜索引擎的出现正是为了解决这一问题。传统搜索引擎在博客网页信息数据的搜索上效率不高,不能满足想搜索特定博客用户的需求。本文重点研究了搜索引擎中网页相关性排序算法的改
自然语言生成(Natural Language Generation,NLG)是自然语言处理领域的一个重要分支,它将输入资料转换成自然语言表述。实现丰富流畅的自然语言生成是人工智能走向成熟的标志之一。本文关注的自动评论生成任务是NLG技术的应用领域之一。然而,目前基于生成模型的自动评论生成的工作中,生成的评论通常只包含与文章相关的信息,而极少包含人在进行真实评论时所具有的由文章内容联想出的信息——
随着信息技术以及多媒体技术的蓬勃发展,数字视频的数量飞速增长,急需新的技术对其进行分析与处理。在视频的分析过程中,首先需要对视频场景进行分割以提取元数据。另外,视频的审核也是短板之一,需要一种方法对视频中的暴力内容进行检测。本文提出了一种使用深度神经网络-隐马尔科夫模型、滑动窗口以及多模态的视频场景分割算法。该算法首先提取镜头的视觉、音频和字幕特征;之后利用深度神经网络-隐马尔科夫模型来推断镜头所