多源多模态数据分析平台设计与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:imyylam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,为了满足不同用户需求,产生了种类繁多的网络平台,用户的生活和互联网紧紧关联在一起,用户在不同网络平台产生了海量的含有文本、图片和视频的多源多模态数据,通过对用户产生的多源多模态数据进行分析,可以为用户提供更好的服务。多源多模态数据分析包括文本数据分析,图像数据分析,多源多模态数据融合分析等。对于多源多模态数据分析,传统的大数据分析平台无法进行有效的支撑。构建多源多模态数据分析平台可以有效地对多源多模态数据进行分析,从而创造更好的经济效益和社会效益。论文题目来源于北京市教委项目《基于社交感知的跨媒体数据分析与挖掘研究》。该课题将社交感知引入到多源多模态的跨媒体数据分析挖掘中,挖掘跨媒体数据之间的潜藏的多粒度、多角度关联,准确理解跨媒体数据内容。本文主要设计并实现能够对多源多模态的跨媒体数据进行采集、存储、分析和可视化的大数据平台。本文首先介绍了处理海量数据的大数据技术和擅长处理图像的深度学习技术,然后分析多源多模态数据分析相关技术,同时分析目前多源多模态数据分析平台的发展现状。论文针对目前单一数据分析平台无法对像含有文本、图片和视频等多源多模态数据进行分析的不足,设计并实现了基于分布式计算框架Spark和深度学习框架TensorFlow的多源多模态数据分析平台。从平台的性能、可靠性、扩展性、易用性等方面考虑,设计了多源多模态数据分析平台的总体架构,并进一步设计并实现多源多模态数据平台的采集、存储、分析和可视化四个模块。平台从而可以满足对海量的多源多模态数据进行分析的需求。最后,分别利用微博文本数据分析、图像内容识别和基于Twitter和Flickr数据的多源多模态图片推荐,验证了论文设计并实现的平台的数据采集、存储、分析和可视化能力。通过对微博文本数据进行分析,验证了平台对新浪微博数据的采集能力以及对文本数据的存储、分析和文本分析结果的可视化能力。通过对图像内容进行识别,验证了平台对图片数据的采集、存储、分析和可视化能力。基于Twitter和Flickr数据的多源多模态图片推荐验证了平台对Flickr和Twitter数据采集能力以及对多源多模态数据的存储能力、融合分析能力和分析结果的可视化能力。
其他文献
超分子化学已成为构建具有特殊光电性能的纳米有序组装体的最有效手段。本文将巴比妥酸与蜜胺及其衍生物接枝到具有光电特性的TTF骨架上,通过氢键的诱导构建出纳米有序超分子
文本情感分析指研究分析人们对产品、服务、组织机构、事件和话题等进行评价时表达的意见、情感、评价、态度和情绪的特殊自然语言处理研究领域。涉及到多项具有挑战性研究任
目前地下车库大量建设,大多数地下车库是以24小时人工照明为主,能耗较大,且地下车库光环境较差;而天然光这种全光谱辐射是最有益于人类的光,绿色清洁。地下车库引入天然光是
特征点匹配是计算机视觉领域研究的核心问题之一。现有的随机蕨算法具有简单、高速的优点,但随机蕨算法训练得到的分类器体积过大,低内存的移动设备难以承受,严重限制了该算
化学计量学诞生至今,已有近30年历史,其研究深度与广度的发展方兴未艾,从分析化学与化学计量学的关系可以看出,化学计量学的发展将对分析化学产生深刻的影响,已构成分析化学第二层
社会发展应该是全民都参与进来的经济、文化、教育、科技等方面全方位的协调、高速发展.教育的发展是所有发展之基.只有教育发展好了,才会培养出更多社会发展需要的各方面人
本论文分为两部分:综述和研究报告。综述部分对电化学发光分析(ECL)的发展历史、基本原理、反应类型、实验装置、特点及其在分析化学中的应用和近期发展状况作了评述。研究报
<正>浙江省嘉善县太浦河管理所承担太浦河(浙江段)工程的运行管理管理工作,负责太浦河(浙江段)陶庄、丁栅、大舜三大枢纽工程沿线各配套建筑物及河道堤防的维修养护与管理,承
1.头孢唑酮对CTAB胶束结构特性的影响 应用电导法和荧光法研究了头孢唑酮对阳离子表面活性剂十六烷基三甲基溴化铵(CTAB)胶束第一临界胶束浓度cmc1、第二临界胶束浓度cmc2和
本文从教育的体育、德育、智育等几个方面阐述了英国教育思想家约翰·洛克的绅士教育思想