数据挖掘在税收管理中的研究与应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:mongtianxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息高速公路的建设,数字技术、数据库技术迅猛发展,人类的数据库里积累了越来越多的历史数据,而从这些海量的数据里探索出实用的有价值的信息对人类社会的发展有着重要的指导意义,这便形成了近几年学术研究的热点,应运而生的就是“数据挖掘”学科。简单的解释就是通过数据库、机器学习、人工智能、统计学等领域的技术,从数据库或web中提取出隐含的,有应用价值的知识和模式,为人们的决策提供有意义的支持和指导。 数据挖掘技术已经逐渐应用到了银行、证券公司以及零售行业的领域中,并且取得了不错的业绩,深受研究人员和商业组织的青睐。当前随着我国税收工作的不断完善,税控系统的应用将会越来越广泛。它的主要核心技术在于,通过嵌入在销售企业pos终端软件中,时时的采集企业的销售数据,并将企业完整的销售记录及时地储存起来,以便于税务机关随时进行核查并进行合理的收税,对消除企业的逃税、漏税起着积极的重要作用。 然而,现在销售行业的规模越来越大,企业的销售数据已越来越庞大,如何在这些海量的销售数据中挖掘出有意义的,对国家税收有帮助的,并对企业的经营策略有价值的知识便成为了现在一个重要的研究课题,而数据挖掘技术正是从这一点出发,利用它本身的各种挖掘技术,从中探索出那些鲜为人知的知识,从而有效地解决了以上问题。 本文主要从税收管理分析的角度来讨论数据挖掘技术。首先介绍了数据挖掘的概念和一些算法以及商业智能的应用,然后针对税控数据源进行分析处理:大量数据迁移、数据预处理,以及建立税源检测数据模型。接着重点研究了聚类算法。并对k-均值算法进行了有效的学习和改进,将其良好的整合到第三方开源挖掘工具—Weka。Weka的全名是怀卡托智能分析环境,已将大量的数据挖掘和机器学习算法嵌入其中,并且为我们提供了算法融入接口。最后通过对其进行算法的改进和界面的更新,达到用数据描述现状、预测趋势的目的,使困绕税务部门的零税申报、低税申报、虚假申报、发票违章等难题得到进一步解决。
其他文献
随着计算机技术与网络技术的普及与广泛应用,工作流技术得到了前所未有的重视和发展。工作流管理系统是实现计算机辅助协同工作的工具,能实现工作流程的全部或部分自动管理功
近年来,随着因特网的普及,电子商务在我国迅速发展起来。C2C作为电子商务的一种重要模式,在我国有着更为强劲的发展势头。但是,网上交易的信任问题已经成为阻碍电子商务发展的瓶
随着网络应用的飞速发展,为保证网络的可靠性,多数园区网采用多重ISP(Internet Service Provider)链路接入因特网。这些园区网中有着大量的客户群,网络拓扑结构错综复杂。在当今
互联网的高速发展使得现有的互联网体系架构已经不能满足人们日益增长的多样化需求,为此相关学者将虚拟化技术应用到网络体系架构中,通过网络虚拟化支持多网络体制并存来解决
信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、事件等信息,并对这些信息进行结构化存储和管理的过程。目前大多数的信息抽取系统采用的是模式匹配的方法,且通
圆柱形零件在现代制造业中有着非常广泛的应用,而圆柱形零件本身质量的优劣对于其制成品的质量也有很重要的影响。因此,圆柱度误差作为衡量圆柱形零件形状误差的一个重要指标,已
当软件发生变更时,如添加新的功能或修正错误后,就需要进行回归测试,以确保这些变更不会对软件产生负面影响。然而频繁的回归测试带来的开销,特别是时间上的开销很大,约占软件维护
随着Internet与网络技术的迅猛发展,万维网上的信息以海量方式增长,然而我们却不能快速而准确获取有效的信息。因为这些信息大多隐藏在深网里,需要通过查询接口在线访问后台
本硕士论文的背景是四川省网络通信技术重点实验室进行的有关下一代Internet体系结构的研究工作,即“单物理层用户数据交换平台体系结构”(SUPA-Single physical-layer User-
随着我国居民汽车保有量的不断增长,道路交通安全问题就变得越来越突出。而在各种导致交通事故的因素中,驾驶员的疲劳驾驶是非重要的一种。因此如何能快速有效的判断驾驶员的