【摘 要】
:
数据挖掘已经成为大数据时代下数据处理、文本分类、数据研究不可或缺的一项标准工具。通常,为了实现数据挖掘的目标,必须配合数据爬取、数据存储、数据分析等各种手段。然而
论文部分内容阅读
数据挖掘已经成为大数据时代下数据处理、文本分类、数据研究不可或缺的一项标准工具。通常,为了实现数据挖掘的目标,必须配合数据爬取、数据存储、数据分析等各种手段。然而在实现数据挖掘目标的各个阶段的实际工作中,不管是数据爬取,还是数据存储,或是数据分析,都存在来自各个方面的难点或痛点。数据爬取:数据难以被大量获取,数据集分散不好归并;数据存储:形式单一,单机存储有数据丢失的风险,数据量大时速度缓慢;数据分析:爬取的数据普遍存在脏数据,在没有区分脏数据和可用数据的前提下,数据挖掘的结果千差万别,需要过滤一些内容。本课题旨在为传统的数据挖掘过程提出一种通用的解决方法和手段,提供数据爬取、数据存储、数据分类整合平台或框架,以此尽可能规避在数据爬取、数据存储和数据分类这三个环节的风险:在数据爬取过程中,解决信息数据没有统一的来源、数据集分散不好整合的痛点;在数据存储过程中,解决存储速度缓慢的痛点;在数据分类的过程中,解决脏数据误差的痛点。本课题通过在数据爬取环节选择webcollector爬虫框架,最大限度地保证爬取到的数据的实时性;在数据存储环节,用codis+redis集群的分布式网络存储系统进行数据实时存储,使数据存储过程具有充分的安全性和可靠性,同时提高了数据存取的效率;在数据分析环节,数据经过贝叶斯分类器后,能够解决脏数据过多的问题,最大程度地保持了数据的纯粹性和可用性。实验原型的评估展示出了本课题提出的框架在功能上能够完成数据挖掘的要求,相比传统的数据挖掘模型,其在性能上实现了时间的低消耗,达到了预期。
其他文献
数字波束形成(Digital BeamForming,DBF)是星载合成孔径雷达(Synthetic Aperture Radar,SAR)获取高分辨率宽测绘带(High Resolution Wide Survey,HRWS)图像的主要途径。该技
安徽省金寨地区可再生能源发展过程中存在管控难、服务难、结算难等问题,金寨县新能源并网配套工程旨在构建适应大规模分布式电源接入的电网,为分布式发电集群优化设计等技术
车辙是沥青路面特有的主要变形破坏之一。雨天的积水车辙路段,不但使行车制动距离加长,而且会造成短时间内出现大幅度侧偏,加剧行车风险。为在管养过程中有效控制积水车辙行车安全,降低雨天车辆驶过车辙路段发生事故的风险,需全面了解车辙的三维形态对路面积水分布产生的影响。目前对车辙检测评价中,仅用最大深度描述车辙的严重程度,无法获取车辙的三维形貌,更无法描述车辙三维形貌的变化对路面积水分布的影响;且利用单一的
辽宁省是我国传统工业基地之一,是典型的资源型发展省份。资源型城市在我国工业化进程中做出了巨大贡献,却也因为资源枯竭引发了城市不同程度的发展缓慢乃至衰退,还引发了经
CBA是我国男子篮球运动的最高水平联赛,随着社会关注程度和比赛强度及激烈程度日益上升,教练员和篮球运动员对比赛的胜利也越来越渴望,通过分析球队的攻防能力可以很好的提升球队整体水平。广东省是CBA联赛中参赛队伍最多的省份,包括广东东莞银行、深圳马可波罗和时代中国广州。除广东队重新登顶冠军宝座外,其余两支队伍都有很大的提升空间,他们需要了解如何长久保证自身优势之外,还要找出自身不足,利用科学定量的分析
细胞自噬是一种真核生物中非常保守的细胞内物质降解机制,通常是指细胞受到信号诱导后,在胞内从头合成双层膜包裹胞质的自噬体,与溶酶体或液泡融合,进而降解其所包含的内容物
当前对教育价值取向的研究有很多,但无论是为推动社会进步,还是为促进个人发展,教育都发挥着一种工具性的效用价值,这是一种对教育相关价值的追求,它在教育目的、实践过程和
微生物次级代谢产物不仅结构类型多样,而且具有多种生物活性,其中一些代谢产物已经被人类开发应用,在人类生产生活中起着重要作用。本研究对三株菌株Stereum sp.ATCC64657、I
中国已经编制并完成实施了十二个五年规划(计划),中国经济总量达到60万亿元,成为世界第二大经济体,中国前十一个五年计划的计划增长率平均为10.8%,实际增长率为8.1%(鄢一龙,2
三维重建技术的发展有效地降低了三维网格曲面模型的获取成本,促进了其在各个领域中的应用。而三维网格曲面去噪一般是三维重建过程中最为基础与重要的一步。因此,关于三维网