论文部分内容阅读
随着互联网、移动互联、大数据等技术的飞速发展,以及我国“互联网+”战略的逐步实施,电子商务、移动社交已经成为人们生活的重要组成部分,也成为新技术创新应用的重要领域,研究电子商务关键技术具有重要的历史意义、现实意义和社会意义。电子商务网站具有海量用户、海量数据和复杂应用场景,围绕业务特点的技术创新不断涌现,云计算、大数据等技术率先在电子商务领域得到广泛的应用、改进和创新。在电子商务技术发展的当前阶段,如何应对海量用户、海量数据以及复杂应用场景带来的挑战,如何在系统部署、业务处理及数据挖掘分析中高效处理大规模数据依然是电子商务研究的重要问题。本文重点研究了电子商务大规模事务数据高效处理的关键问题,首先针对大规模数据处理中的高维数据问题,提出在预处理环节的两种数据降维方法;其次针对大规模数据处理中的任务部署及调度等热点问题,提出基于强化学习的两阶段任务部署方法;最后针对电子商务复杂查询应用带来的多数据中心数据传输问题,提出基于数据相关性的结构化数据分布方法。本文主要贡献如下:(1)归纳和总结了电子商务大规模事务数据高效处理方法,阐述了当前研究工作的主要背景、重要意义与研究重点。本文介绍了电子商务对国民生活的重要意义、发展趋势及依赖的关键技术,分析了大数据环境下大规模数据处理的主要框架和流程,以及大规模数据处理全流程中的若干重要问题,重点对电子商务技术领域数据处理关键问题的解决方法进行了详细介绍与分析。(2)针对电子商务高维数据的预处理进行了研究。电子商务数据处理往往面对大量高维、低密度的数据,传统分类方法往往受数据特点影响难以挖掘分析内部关系。针对此问题,提出对高维数据的两种预处理机制,对于无标签数据,针对传统方法对高维数据聚类导致的不准确等问题,提出主成分分析和聚类相结合的数据降维及分类方法,该方法建立主因子及关联因子模型,以关联因子系数构建网站相似度距离,通过改进DBSCAN聚类算法提升网站评估的合理性和可解释性。对于有标签数据的数据降维,针对传统方法处理效率不高且容易陷入局部优化困境,本文提出基于粗糙集的分布式粒子群方法,该方法巧妙结合粒子群方法和粗糙集理论,在多个粒子群同步寻找最优化特征子集,提高执行效率和搜索范围,同时针对特征子集的评价函数中加入随机因子,降低搜索的不确定性,实验证明该方法有效提升大规模数据的特征选择效率。(3)针对电子商务大规模数据处理的任务部署进行了研究。许多传统方法的局限性和异构环境下资源性能的变化,导致系统响应时间相对长、算法复杂度高、资源浪费等问题。针对此问题,本文提出了一种基于强化学习的大规模并行任务处理方法TOPE。该方法将整个网络看作一个多智能体系统,通过分布式多目标群智能实现虚拟节点映射,通过深度强化学习及马尔可夫决策过程实现虚拟链路映射,最终实现胖树拓扑结构中任务分配的两阶段优化工作。实验结果表明,TOPE能够兼顾负载均衡、带宽开销和能耗,有效地减少计算节点和链路的能量消耗。(4)针对电子商务大规模数据处理的数据分布进行了研究。云计算环境下数据分布在多个数据中心,海量用户随机的、类搜索方式的查询引起多数据中心之间数据频繁传输,查询处理效率难以满足应用需要。针对此问题,本文提出基于文件相关性的数据分布方法,将整个云环境看作互联网,将用户随机的、海量的查询行为看作互联网搜索,借鉴互联网搜索思想建立索引和文件间相关性、文件和文件间相关性,再利用针对矩阵相似度的BEA聚类算法对数据进行重分布。首先,根据云计算下查询应用的数据特点,将数据表映射为以统计数据为基础的数据特征向量模型,根据特征向量距离构建数据表相关性特征矩阵,将矩阵元素临近元素数值和作为键能值的方式进行聚类,最后通过BEA聚类方式对数据表相关性进行聚类,从而对数据在云环境中进行分配。实验表明,采取相关性分布策略,能够合理将相关数据分配到同一数据块,避免海量临时查询过程中尤其连接查询的数据传输,数据查询处理效率明显提高。