联网审计数据质量与清洗评估技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:herozds2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
审计领域己经从传统的手工审计过渡到计算机审计,生成了大量的审计数据,但往往大量的数据无法产生可信的信息。数据质量是决定数据好坏的关键,只有良好的数据质量才能帮助人们做出正确的决策,得出可信的信息。对数据质量进行评估,完成数据清洗,成为人们提高数据质量的常用方法。本文主要研究了面向审计领域的数据质量评估方法和数据清洗方法。本文研究了数据清洗原理和对不同类型脏数据进行清洗的方法,研究了数据清洗的流程和评价标准。审计数据有其自身的特点:数据中的异常数据可能恰恰是事物某种异常现象的反映。数据质量评估时,有效异常数据(即反映审计线索的异常数据)越多,说明数据质量越高。在联网审计中可以通过评估数据潜在线索,获取审计证据。针对审计数据这一特点,最后本文提出了针对审计领域的审计潜在线索含量评估方法,即评估可能是审计线索的数据在整体数据中的含量。在数据清洗方面,本文对常见的字段匹配算法:Levenshtein距离、Smith Waterman距离、海明距离做了详细的说明和算法分析。在大数据量相似重复记录检测方面,对基于“排序-合并”思想的基本近邻排序算法、多趟近邻排序算法、优先队列算法进行了研究,并提出了局部敏感哈希重复记录检测算法。相比基于“排序—合并”思想的算法,局部敏感哈希算法省去了排序过程。并且“排序—合并”算法对排序关键字敏感,不同的排序方式可能产生不同的检测结果,局部敏感哈希算法对关键字顺序不敏感。由于相似重复记录只占总记录的很少部分,“排序—合并”算法比较了很多不相似的记录,局部敏感哈希算法缩小了相似重复记录范围,减少了相似重复记录比较次数。实验结果表明,局部敏感哈希重复记录检测算法在记录比较次数方面优于传统的算法,记录比较次数比传统算法少一个数量级,但在查准率和查全率方面比传统算法略低。
其他文献
近年来,延迟容忍网络(DTN)是网络领域中一个热点研究问题,DTN和传统的网络有很多不同,例如,DTN经常面临长时间的中断转发(例如,星际网络通信)或间歇性连接所引起的高延迟。除
随着3G网络的商用部署和无线带宽的提高,无线网络的带宽将得到质的改善和提高。WAP、MMS、流媒体业务等极具潜力的移动数据业务将在今后几年取得巨大成功,数据业务将是3G时代
学术社会网络是通过学术活动构建起来的网络,学者组成了网络中的各个节点,学者之间的合著关系构成了网络中的边。随着学术研究越来越快的发展,学术社会网络的规模也逐渐增大
随着计算机和网络技术的不断发展,传统的无线网络已经不能满足人们的需求,因此高效快捷,组网灵活的无线Mesh网络应运而生。它是一种新型的无线通信网,由于其各个方面的优势,
量子计算具有并行性、指数加速和指数级存储容量等特征,已经成为当今世界各国紧密跟踪的前沿学科之一。量子理论中有关量子态的叠加、纠缠和干涉等特性,有可能解决经典计算中的
随着全球互联网的迅速发展,以因特网技术为主导的数据通信在通信业务总量中的比例迅速上升,如一些新的多媒体通信不断涌现,可视电话、视频会议、多媒体远程教育等。在这些应
随着科技进步,各种图像捕获设备层出不穷,图像在人们的生活中使用的也越来越广泛。但同时,由于数字图像便于修改,导致它的内容安全性逐步降低。针对这个问题,人们提出各种解
大数据时代,个性化推荐已经成为电子商务网站中的一个重要研究方向,它可以快速发现和匹配用户的喜好信息。用户信任在推荐系统中有着不可忽略的作用,然而传统的电子商务网站
视频中的目标跟踪是计算机视觉领域中富有挑战性的课题之一,在视觉导航、安全监控等领域有着广阔的应用前景。开发鲁棒的跟踪算法也具有重要的理论意义。考虑到实际环境中的
交互式系统设计主要包括用户界面的交互设计和用户界面软件架构的设计。已有的用户界面交互设计和软件架构设计是为满足办公人员的需求产生的,旨在满足用户办公有效、高效的