论文部分内容阅读
伴随着信息高速公路的建设,数字技术、数据库技术迅猛发展,人类的数据库里积累了越来越多的历史数据,而从这些海量的数据里探索出实用的有价值的信息对人类社会的发展有着重要的指导意义,这便形成了近几年学术研究的热点,应运而生的就是“数据挖掘”学科。简单的解释就是通过数据库、机器学习、人工智能、统计学等领域的技术,从数据库或web中提取出隐含的,有应用价值的知识和模式,为人们的决策提供有意义的支持和指导。
数据挖掘技术已经逐渐应用到了银行、证券公司以及零售行业的领域中,并且取得了不错的业绩,深受研究人员和商业组织的青睐。当前随着我国税收工作的不断完善,税控系统的应用将会越来越广泛。它的主要核心技术在于,通过嵌入在销售企业pos终端软件中,时时的采集企业的销售数据,并将企业完整的销售记录及时地储存起来,以便于税务机关随时进行核查并进行合理的收税,对消除企业的逃税、漏税起着积极的重要作用。
然而,现在销售行业的规模越来越大,企业的销售数据已越来越庞大,如何在这些海量的销售数据中挖掘出有意义的,对国家税收有帮助的,并对企业的经营策略有价值的知识便成为了现在一个重要的研究课题,而数据挖掘技术正是从这一点出发,利用它本身的各种挖掘技术,从中探索出那些鲜为人知的知识,从而有效地解决了以上问题。
本文主要从税收管理分析的角度来讨论数据挖掘技术。首先介绍了数据挖掘的概念和一些算法以及商业智能的应用,然后针对税控数据源进行分析处理:大量数据迁移、数据预处理,以及建立税源检测数据模型。接着重点研究了聚类算法。并对k-均值算法进行了有效的学习和改进,将其良好的整合到第三方开源挖掘工具—Weka。Weka的全名是怀卡托智能分析环境,已将大量的数据挖掘和机器学习算法嵌入其中,并且为我们提供了算法融入接口。最后通过对其进行算法的改进和界面的更新,达到用数据描述现状、预测趋势的目的,使困绕税务部门的零税申报、低税申报、虚假申报、发票违章等难题得到进一步解决。