基于张量的大数据融合模型研究

来源 :东北电力大学 | 被引量 : 3次 | 上传用户:xuthusboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今是信息技术高速发展的时代,数据规模呈指数方式增长,大数据的价值越来越受到广泛的关注。当前,大数据领域中存在的两个重点问题分别是如何将大数据表示成统一的模型和对大数据进行高效的降维。目前,非结构化数据、半结构化数据以及结构化数据都有其单独的表示模型,并没有统一的模型能够对三种数据进行统一的表示。此外,在对大数据进行运算时,冗余数据、不一致数据以及噪声数据大量存在,使得目前处理大数据的算法难以实现高效的运行,因此降低了计算结果的准确性。如何将内部数据结构复杂的大数据表示成统一的简洁高效的数学模型,如何将原始数据集通过降维算法得到高质量的核心数据集,对大数据的研究具有重大的意义。随着大数据的发展,张量在大数据中的应用得到了广泛的关注。大数据具有数据量大、响应变化快、数据类型多样和价值密度低的特征,本文通过对大数据的特征进行分析,研究基于张量的大数据融合模型、大数据降维方法。论文的主要研究内容如下:首先,提出基于半张量积的大数据融合模型。结构化数据、半结构化数据以及非结构化数据都有单独的数据表示模型,传统的数据模型无法将这些数据统一融合到一个模型中。根据以上三种数据的不同结构类型以及这三种数据的结构特点,本文提出基于半张量积的大数据统一融合模型,使得结构化数据、半结构化数据、非结构化数据融合到同一个模型中。针对这三种数据在融合过程中出现的矩阵前阵列与后阵行不同的情况,利用半张量积对其进行融合。该模型不但能够将多源异构数据融合成统一的张量模型,还能保持原数据的基本内部特征不发生改变。其次,提出基于张量分割的降维方法。在处理数据的过程中,数据量过大、中间结果过于复杂直接导致大数据降维效率的低下。针对这一问题,首先将多源异构数据表示成的大数据融合模型进行分割,将一个比较大的张量模型分割成多个小的张量模型,然后对每一个小的张量模型进行增量式降维,即先将每一个分割后的张量展开,然后将展开矩阵投影到原矩阵的向量基空间中,最终得到能够替代原始张量的近似张量。最后,提出一种改进的非负矩阵分解的数据约减算法。非负矩阵分解能够使得分解后的元素都是非负值,并且能够同时实现对数据维数的约减,能够对近似张量进行进一步约减。首先将近似张量展开,对展开后的每一个矩阵进行非负矩阵分解,然后将分解后的矩阵进行合并,得到冗余度更小,数据质量更高的近似张量。在对张量模型进行非负矩阵分解时,不但能够将该模型的数据维度进行约减,还使得样本集与原始数据集能够保证数据分布的一致性。
其他文献
pH响应性抗肿瘤纳米键合药因其良好的稳定性及药物释放的可控性而受到研究者的广泛关注。这种键合药能在肿瘤组织和细胞的酸性微环境中迅速裂解,释放出小分子抗肿瘤药物。在
<正>2012年1—2月,全球发生的重大动物疫情主要有禽流感、口蹄疫、非洲猪瘟、蓝耳病和新发的施马伦堡病等。越南、印度、不丹、尼泊尔、中国香港和南非发生高致病性禽流感疫
大学生思想政治教育的实效性是指大学思想政治教育成果对大学生个体发展与社会发展的综合促进作用。本文主要介绍大学思想政治教育的实效性评价方法与主要依据,根据我国大学生
秦观是北宋著名文学家,他的文学创作包含了诗、词、文、赋等各种体裁的文学作品,均有突出的成就,但以词名,后世评价秦观的词作,以其为婉约派的代表。现如今对秦观的研究数不
英语学科地位的讨论近来热度不减,英语教育成为公众关注的热门话题。专家表示,英语教育不是要削弱,而是该加强。今天是全球化、国际化的时代,英语已经不再属于任何一个国家,它属于
在移动互联网时代,信息的流动和互通速度呈现出数量级的增加,传播的方式日新月异,年轻人对新兴事物的接受度高,接受程度深,如何利用好信息文化的新工具,作为教师改进思想政治工作的
<正>“传统中国社会是一个有社群的社会,农村的宗法家族、城市中的同乡会馆,都是传统的社群,在一个天高皇帝远的古代社会里,这些社群在乡绅的领导下,在社会的低层发挥自组织
会议
随着我国社会经济的飞速发展和初级中学教育体制改革的不断深入,人们对初升高考试越来越重视,一味地追求分数却忽略了对学生的思想品德教育。思想品德教育的缺失导致很多学生理
根据天生桥二级水电站水库和来水特点,结合蓄水发电以来对洪水调度工作总结的经验教训,探讨动态规划优化技术在洪水优化调度中的应用。通过对1994年9月26日的一场洪水优化调度的计算,其
<正>佛教各乘各宗都把得到正见做为修行最重要的前提。如《佛性论》所说,学佛要"以正见为先行",因为正见总摄了戒定慧三学。陈兵教授把"得正知见"做为大乘根本四加行之一,并
期刊