论文部分内容阅读
税务稽查选案是指税务机关通过分析企业定期呈报给税务部门的综合财务数据资料和纳税申报数据资料,最大限度地发现企业申报纳税中存在的问题和疑点,查找出有偷漏税嫌疑的企业,确定为税务稽查对象的过程。税务稽查选案信息处理研究的核心内容是对企业申报纳税状况进行模式识别,其研究结果直接影响税务稽查计划的合理制定,是税收学的重要研究领域。本文针对现有税务稽查选案存在的企业涉税经济数据量大,选案方法对样本的可靠程度依赖性强、企业纳税申报情况和偷逃税行为之间高度的非线性关系难以反映等特征,将机器学习中的支持向量机(Support Vector Machine,简称SVM)方法和神经网络聚类方法引入到稽查选案信息处理中,通过对企业涉税数据样本的分类判断和聚类分析,确定税务稽查对象清册。文章在分析研究支持向量机、遗传算法(Genetic Algorithm,简称GA)和聚类分析的原理和实现方法的基础上,利用系统工程的思想,设计了基于支持向量机和自组织特征映射网络(Self-organizing feature map,简称SOM)相结合的税务稽查选案信息处理模型。首先运用支持向量机良好的分类能力,根据纳税人的历史税收征管信息资料,对纳税人是否需要纳入稽查范围进行判断分类,在具体实施分类时,充分考虑支持向量机核函数参数和正则化参数C难以确定的因素,引入了遗传算法,运用遗传算法良好的全局搜索能力来自动确定支持向量机的参数;然后根据有相类似的偷漏税手段的纳税人必然具有相类似的样本属性的特点,运用自组织特征映射网络和K均值聚类算法相结合的方法对纳入稽查选案范围的纳税人进行聚类,为合理制定税务稽查计划提供参考依据,并可据此确定实施税务稽查检查的侧重点,更有利于税务稽查的实施。在自组织特征映射网络和K均值算法相结合的聚类方法中,先用SOM算法对数据进行粗略的聚类,然后用SOM的连接权值对K均值算法的初始聚类中心进行初始化,通过K均值算法对样本进行精确聚类,实验结果表明该聚类组合算法能提高聚类的准确率。文章最后结合增值税税务稽查选案指标,通过实例数据验证了基于GA-SVM和SOM-K的税务稽查选案信息处理模型的有效性。