电子商务的大规模事务数据高效处理关键问题研究

来源 :吉林大学 | 被引量 : 2次 | 上传用户:tyxtry88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、移动互联、大数据等技术的飞速发展,以及我国“互联网+”战略的逐步实施,电子商务、移动社交已经成为人们生活的重要组成部分,也成为新技术创新应用的重要领域,研究电子商务关键技术具有重要的历史意义、现实意义和社会意义。电子商务网站具有海量用户、海量数据和复杂应用场景,围绕业务特点的技术创新不断涌现,云计算、大数据等技术率先在电子商务领域得到广泛的应用、改进和创新。在电子商务技术发展的当前阶段,如何应对海量用户、海量数据以及复杂应用场景带来的挑战,如何在系统部署、业务处理及数据挖掘分析中高效处理大规模数据依然是电子商务研究的重要问题。本文重点研究了电子商务大规模事务数据高效处理的关键问题,首先针对大规模数据处理中的高维数据问题,提出在预处理环节的两种数据降维方法;其次针对大规模数据处理中的任务部署及调度等热点问题,提出基于强化学习的两阶段任务部署方法;最后针对电子商务复杂查询应用带来的多数据中心数据传输问题,提出基于数据相关性的结构化数据分布方法。本文主要贡献如下:(1)归纳和总结了电子商务大规模事务数据高效处理方法,阐述了当前研究工作的主要背景、重要意义与研究重点。本文介绍了电子商务对国民生活的重要意义、发展趋势及依赖的关键技术,分析了大数据环境下大规模数据处理的主要框架和流程,以及大规模数据处理全流程中的若干重要问题,重点对电子商务技术领域数据处理关键问题的解决方法进行了详细介绍与分析。(2)针对电子商务高维数据的预处理进行了研究。电子商务数据处理往往面对大量高维、低密度的数据,传统分类方法往往受数据特点影响难以挖掘分析内部关系。针对此问题,提出对高维数据的两种预处理机制,对于无标签数据,针对传统方法对高维数据聚类导致的不准确等问题,提出主成分分析和聚类相结合的数据降维及分类方法,该方法建立主因子及关联因子模型,以关联因子系数构建网站相似度距离,通过改进DBSCAN聚类算法提升网站评估的合理性和可解释性。对于有标签数据的数据降维,针对传统方法处理效率不高且容易陷入局部优化困境,本文提出基于粗糙集的分布式粒子群方法,该方法巧妙结合粒子群方法和粗糙集理论,在多个粒子群同步寻找最优化特征子集,提高执行效率和搜索范围,同时针对特征子集的评价函数中加入随机因子,降低搜索的不确定性,实验证明该方法有效提升大规模数据的特征选择效率。(3)针对电子商务大规模数据处理的任务部署进行了研究。许多传统方法的局限性和异构环境下资源性能的变化,导致系统响应时间相对长、算法复杂度高、资源浪费等问题。针对此问题,本文提出了一种基于强化学习的大规模并行任务处理方法TOPE。该方法将整个网络看作一个多智能体系统,通过分布式多目标群智能实现虚拟节点映射,通过深度强化学习及马尔可夫决策过程实现虚拟链路映射,最终实现胖树拓扑结构中任务分配的两阶段优化工作。实验结果表明,TOPE能够兼顾负载均衡、带宽开销和能耗,有效地减少计算节点和链路的能量消耗。(4)针对电子商务大规模数据处理的数据分布进行了研究。云计算环境下数据分布在多个数据中心,海量用户随机的、类搜索方式的查询引起多数据中心之间数据频繁传输,查询处理效率难以满足应用需要。针对此问题,本文提出基于文件相关性的数据分布方法,将整个云环境看作互联网,将用户随机的、海量的查询行为看作互联网搜索,借鉴互联网搜索思想建立索引和文件间相关性、文件和文件间相关性,再利用针对矩阵相似度的BEA聚类算法对数据进行重分布。首先,根据云计算下查询应用的数据特点,将数据表映射为以统计数据为基础的数据特征向量模型,根据特征向量距离构建数据表相关性特征矩阵,将矩阵元素临近元素数值和作为键能值的方式进行聚类,最后通过BEA聚类方式对数据表相关性进行聚类,从而对数据在云环境中进行分配。实验表明,采取相关性分布策略,能够合理将相关数据分配到同一数据块,避免海量临时查询过程中尤其连接查询的数据传输,数据查询处理效率明显提高。
其他文献
2017年4月7日,艺术家叶永青作品展览"纸遁——来自劳森伯格的礼物"于金杜艺术中心开幕。本次展览以纸上绘画的形式展现了叶永清的自由式、趣味式的艺术理念,展期将持续到2017年
提出了基于回归型支持向量机的非线性系统内部模型和逆模型的辨识建模方法,在此基础上,提出了基于回归型支持向量机的非线性系统内模控制的方法。仿真试验结果表明:采用回归型
试验研究了铅黄铜HPb59-1材料在连续切削加工时产生的切削颤振,得到了切屑形成频率与切削用量之间的关系,以及切削颤振形成频率和振幅。试验结果表明,铅黄铜HPb59-1材料因切
百度、分众无线等新媒体在运营模式上的瑕疵是应当批评,并要力促其尽快改进的,但它们毕竟没用纳税人一分钱,只要不作恶便无需苛求。央视是国家事业单位,本身享有国家给予的各种优惠政策,自有提供公共服务产品的义务,黄金广告资源亦然。它能否招标、怎样招标本身还是个有待进一步讨论、反思的问题。    92.56亿元!既是众望所归,也在大多业内人士预料之中,它是央视官方公布的2009年广告资源招标总额的最终结果。
纤维肌痛综合征是女性多见的一种以周身疼痛为主要表现,兼情绪变化、失眠等的临床常见病。病程长,易复发。笔者采用验方治疗纤维肌痛综合征,效果满意。
在Windows系统下进行数控系统的开发。该数控系统的主机界面用Labwindows开发,并采用C++语言作了控制、编译等模块的开发。重点阐述人机交互界面模块的开发工作。
该文介绍一种基于FPGA多视频信号任意叠加的设计与实现,给出了实现原理及模块设计。设计包含视频采集预处理模块、IC总线接口模块、DDR3SDRAM存储模块、放大叠加融合模块、LVD