论文部分内容阅读
本文在分析税收业务和现有税务管理信息系统的基础上,结合对孤立点数据挖掘技术的研究,提出了建立基于孤立点数据挖掘对纳税人行为的分析系统。基于此,本文论述了孤立点数据挖掘的研究发展状况,指出了基于单元的孤立点挖掘算法存在的缺点,并予以改进;其次,在熟悉税务业务的基础上,根据系统需要,设计并实现了一个完整的孤立点数据挖掘的数据准备过程;最后,使其改进的算法应用到对纳税人行为的分析中,从而更加完善了我们与泰安国税局合作的项目《泰安市国税局数据仓库与数据挖掘系统》。 总结本文的研究内容,主要有如下创新: 1、在基于单元的孤立点数据挖掘算法基础上,针对边界单元格出现的孤立点误判问题,给出了对M值进行动态调整函数。 2、对算法中D的应用提出了区域取值,以使用户能更好地把握衡量问题的度。 3、在以上两点基础上给出了对原算法的改进算法,并达到了较好的效果。 4、在基于孤立点数据挖掘的数据准备中建立了数据仓库,并提出基于时间戳的数据增量更新方法,该方法很好地解决了在数据仓库中对海量数据进行数据更新的问题。 另外,本文通过实例,对改进的算法进行了验证,结果证明新旧两种算法具有相同的时间复杂度,但新算法在避免边界单元格处孤立点误判问题上达到了明显的效果。