基于大数据平台的增值税发票应用分析系统的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:QIAOKAIIORI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为国家重要税种的增值税,在其发票开具和税务申报过程中,最能识别出企业的异常行为,因而对增值税发票的后续关联分析成为税务工作的重中之重。然而,传统的数据仓库模式,在面对税务海量数据面前,具有数据抽取时间长、计算难度大、形成的税务风险报告周期较长等特点,没法及时准确的对各种税务风险进行预警。为此,本文针对上述问题,将增值税发票的后续关联分析作为研究对象,基于大数据Hadoop系统架构,利用大数据的海量数据处理能力,对海量数据的存储、清洗、建模、并发计算及时效性等多态应用进行了深入的研究。主要内容和结果如下:研究了Hadoop集群下的数据挖掘算法,对分类算法、聚类、关联规则挖掘、参数估计、图分类及用户行为画像等相关挖掘算法的适用场景和使用方法进行了深入分析,并与涉税分析系统对应的分析指标、预警指标及用户行为进行了算法匹配,建立了基于大数据环境下的多维数据挖掘算法和计算思路,借助大数据集群高并发及内存计算等特点,有效地解决了数据抽取时间长,计算难度大等问题。研究了Hadoop的任务调度、内存分配及资源管理在YARN上的资源调配、数据共享、集群协同及任务监控,分析了可能出现的热点问题及数据倾斜问题并进行了规避,对关系型数据到Hadoop非结构化数据迁移工具Sqoop、数据流传输系统Flume、结构化数仓HIVE及高并发内存计算Spark等关键生态组件进行了研究,并与涉税系统进行了需求和功能方面融合,形成了基于数据层面的大数据挖掘方法,极大地改善了加工数据慢、数据不准确等问题,大幅缩减了形成税务风险报告的时间,比传统数据仓库模式提前了14天。研究了各涉税业务系统数据结构特点、用户行为特征及对应的风险因子,对数据之间的相关性、趋势性及差异性进行了梳理,建立了以纳说人登记序号为纽带的数据依赖关系,形成了以企业流为横向的上下游挖掘思路和以发票流为纵向的进销项挖掘思路,解决了异构系统之间数据关联性低、数据利用率低下等问题。
其他文献
低碳合金钢20CrMnTi为齿轮常用材料,它是性能良好的渗碳钢,主要用于齿轮、轴类、活塞类零配件以及汽车、飞机各种特殊零件部位。然而该材料在加工和使用的过程中经常会产生裂
本文以交易成本理论、供应链理论为基础,整理了商业模式的动态变革、营运资金管理的内容以及营运资金管理的影响因素,并进行文献述评。在机理分析板块,一方面,本文阐述了商业
我国桥梁在飞速发展的过程中,由于服役年限及交通量与日剧增等原因,其结构各种病害相继出现。桥墩与桩基等桥梁下部结构的性能直接关系到桥梁的承载力与耐久性,承载力削弱、
春秋时期是否“礼崩乐坏”在学术界存在诸多争议,本文试图从微观的角度,以《左传》中的吉礼为研究对象来揭示礼制在春秋时期相因、损益的变动过程。 There are many controv
本文针对水稻氮磷钾高产施肥模式进行研究分析,积极结合具体实验方法为依据,利用三元二次通用旋转组合设计的方式,对其进行深入探索研究,总结出适当的高产施肥模式,目的在于
作为中国传统建筑的主要类型,木构建筑以木材为主要建筑材料,其发展历史悠久,已经发展成一套完整的木建体系。作为中国传统文化的重要部分,木构建筑承载着中华民族劳动人民的智慧和辛勤劳动,是中华文化的重要载体。因此,我们应对其进行保护性的发掘,将其生态理念嵌入现代建筑设计中,木构建筑的现代化再造实质是返本开新。随着我国对外文化交流合作的推进,西方建筑文化快速涌入中国,一幢幢钢筋混泥土的建筑拔地而起,然而,
营销管理如今已得到众多企业管理层的认可并有着十分广泛的应用,国内外对此研究的理论知识也是层出不穷;尤其是在激烈竞争的行业中,市场占有率更是考虑每个企业生命力、竞争
过卷、卡罐、断绳等是影响提升运行安全的主要事故,超载是诱发上述事故的重要原因之一,《煤炭安全规程》对提升超载提出了相关要求。目前装载阶段难以准确、快速的获取载重量
小数知识是小学阶段“数与代数”领域的重要内容之一,不仅与整数和分数有着密切联系,是连接两者的桥梁,而且在日常生活中应用十分广泛。其中,小数乘法作为小数知识中的重要知识点,对后续的小数除法和分数乘除法的学习亦至关重要,根据一线教师的反映发现学生在小数乘法的学习中存在各种各样的问题,这些问题或普遍或特殊,但都真实反映了学生的思维路径以及背后存在的问题,因此具有研究的价值。本研究通过查阅相关文献资料,对
核物理学主要研究各类次原子粒子和它们之间的关系,以及核能.核技术及其应用的相关物理问题.核物理自诞生以来虽然只经过短短百余年,但核物理理论及技术已经广泛应用在军事、