【摘 要】
:
随着大数据时代和人工智能领域的发展,数据的存储和挖掘处理凸显的愈加重要,同时出现了数据质量降低的问题。数据清洗能够有效处理数据质量问题。以国内某电商网站开展促销活动前一个月的用户点击日志数据作为清洗对象,针对其存在的重复数据问题,采取合适的清洗方法进行处理,目的是提高日志数据的清洗效率。对于日志重复数据的清洗,按照重复数据的类型分为两大块内容,一块是清洗完全重复数据,一块是清洗相似重复数据。首先,
论文部分内容阅读
随着大数据时代和人工智能领域的发展,数据的存储和挖掘处理凸显的愈加重要,同时出现了数据质量降低的问题。数据清洗能够有效处理数据质量问题。以国内某电商网站开展促销活动前一个月的用户点击日志数据作为清洗对象,针对其存在的重复数据问题,采取合适的清洗方法进行处理,目的是提高日志数据的清洗效率。对于日志重复数据的清洗,按照重复数据的类型分为两大块内容,一块是清洗完全重复数据,一块是清洗相似重复数据。首先,对完全重复数据的清洗。利用Hadoop分布式文件系统进行日志数据的存储。通过其副本管理和心跳机制,保证日志数据存储的高效性和完整性;利用Map Reduce强大的并行计算能力结合自定义清洗规则,统计完全重复数据的数目和剔除多余的完全重复数据。实验可以实现所有完全重复数据的清除。其次,清洗相似重复数据需要能够准确高效地识别相似重复数据。针对相似重复数据的检测,提出了基于字符频率的编辑距离算法。该算法是在传统编辑距离算法的基础上考虑了字符频率,使得字符匹配综合考虑的信息更多。通过编辑距离算法和基于字符频率的编辑距离算法的对比试验,后者对重复字符的检测查准率达到了80.4%,在传统编辑距离算法检测查准率77.2%的基础上提高了3.2%,实验证明改进算法的检测效率得以提高。最后,清洗相似重复数据是重点也是难点。针对相似重复数据的清洗提出了一种非固定窗口近邻排序算法。该算法根据记录的相似度多少决定窗口大小,相似度由窗口中的记录匹配计算所得。进行了以下实验:实验一,对比不同窗口大小下,传统近邻排序算法对日志数据的清洗效果,清洗效果最优的近邻排序算法窗口大小是5。实验二,将窗口分别取5和7的传统算法和改进算法的清洗查准率和清洗耗费时长情况进行对比分析,进而检验了非固定窗口近邻排序算法的查准率随着处理数据量的增多,较传统算法会有小幅度提高。与实验二形成对比,实验三修改记录选择的关键字,进一步验证改进算法的查准率得到提高的结论。图27幅;表13个;参55篇。
其他文献
节流油嘴是接在油气井测试及开采工艺流程管线中用以控制和调节管道流量及井内压力的关键部件。流体经油嘴节流口,流道截面积收缩,流线折转,流体在节流口处发生流体分离,局部
目的:通过随机对照试验,对深刺八髎穴联合双歧杆菌三联活菌片治疗老年功能性便秘的有效性、安全性进行探究,展现中西医结合的优势。本课题以试验研究的结果和中西医结合的基
蓝莓蜜是蜜蜂采集蓝莓蜜腺分泌的花蜜,经蜜蜂充分酿造而成的天然成熟蜜,口感香甜、风味独特,深受消费者的喜爱。本文拟以贵州本土特色蓝莓蜜为研究对象,重点剖析其多酚类化合
顾客的到达规律是影响队列的重要因素之一,而到达率随时间变化的队列模型在不同的领域广泛应用,因此研究到达率随时间变化的队列模型具有重要的理论意义和实用价值.本文首先在高负荷条件下对到达率随时间变化的单服务台G_t/GI/1队列模型和多服务台G_t/GI/s队列模型展开研究,其次在多服务台G_t/GI/s队列模型的基础上添加带有顾客放弃的限制条件,进而研究到达率随时间变化且带有顾客放弃的G_t/GI/
近年来,随着全球环境污染的日益加剧以及化石燃料资源的日益枯竭,大力发展清洁能源成为未来发展的必要趋势。电动汽车作为清洁环保的典型代表,一直以低排放和低消耗备受全世
本文在一套气固密相环流预汽提段与汽提段相耦合的大型提升管出口SVQS冷模实验装置中,对实验测定的两种不同结构环流预汽提段的各项流动参数进行对比分析,其中预汽提段Ⅰ的导
本文主要在G-框架下研究了两类复杂网络模型的稳定性问题。文章主要分为两部分。第一部分,基于有N(N≥ 2)个节点的图g,我们讨论了如下由G-布朗运动驱动的带有时变时滞的在网络上的随机耦合系统(简称,G-SCSND)。或其简写形式为:其中,B(·)是一个G-布朗运动,(B>(.)是其相应的二次变成过程,(?)是连续激活函数(?)是连续函数.τ(t)是时变时滞且(?)。初始值(?)是F0-循序过
侵蚀过程导致了泥沙颗粒在坡面的重分布及伴随颗粒迁移的有机碳的空间异质性。泥沙颗粒的空间分布由其迁移距离决定,而颗粒的迁移距离不仅与其自身的沉降速度有关,同时也受坡
随着经济的发展和城市规模的扩大,我国地下排水管道建设发展迅速,在交通荷载和地震荷载作用下地下排水管道灾害事故日益频发,造成其渗漏、脱空和断裂等情况,严重影响环境与群
近年来,光致变色材料由于其特有的性质已经被广泛应用于感光材料,电子信息储存等多个领域。由于可见光对各类光学装置和生物细胞的破坏性及危害性都比较小,所以在可见光照射