论文部分内容阅读
审计领域己经从传统的手工审计过渡到计算机审计,生成了大量的审计数据,但往往大量的数据无法产生可信的信息。数据质量是决定数据好坏的关键,只有良好的数据质量才能帮助人们做出正确的决策,得出可信的信息。对数据质量进行评估,完成数据清洗,成为人们提高数据质量的常用方法。本文主要研究了面向审计领域的数据质量评估方法和数据清洗方法。本文研究了数据清洗原理和对不同类型脏数据进行清洗的方法,研究了数据清洗的流程和评价标准。审计数据有其自身的特点:数据中的异常数据可能恰恰是事物某种异常现象的反映。数据质量评估时,有效异常数据(即反映审计线索的异常数据)越多,说明数据质量越高。在联网审计中可以通过评估数据潜在线索,获取审计证据。针对审计数据这一特点,最后本文提出了针对审计领域的审计潜在线索含量评估方法,即评估可能是审计线索的数据在整体数据中的含量。在数据清洗方面,本文对常见的字段匹配算法:Levenshtein距离、Smith Waterman距离、海明距离做了详细的说明和算法分析。在大数据量相似重复记录检测方面,对基于“排序-合并”思想的基本近邻排序算法、多趟近邻排序算法、优先队列算法进行了研究,并提出了局部敏感哈希重复记录检测算法。相比基于“排序—合并”思想的算法,局部敏感哈希算法省去了排序过程。并且“排序—合并”算法对排序关键字敏感,不同的排序方式可能产生不同的检测结果,局部敏感哈希算法对关键字顺序不敏感。由于相似重复记录只占总记录的很少部分,“排序—合并”算法比较了很多不相似的记录,局部敏感哈希算法缩小了相似重复记录范围,减少了相似重复记录比较次数。实验结果表明,局部敏感哈希重复记录检测算法在记录比较次数方面优于传统的算法,记录比较次数比传统算法少一个数量级,但在查准率和查全率方面比传统算法略低。