论文部分内容阅读
随着互联网的快速发展,为了满足不同用户需求,产生了种类繁多的网络平台,用户的生活和互联网紧紧关联在一起,用户在不同网络平台产生了海量的含有文本、图片和视频的多源多模态数据,通过对用户产生的多源多模态数据进行分析,可以为用户提供更好的服务。多源多模态数据分析包括文本数据分析,图像数据分析,多源多模态数据融合分析等。对于多源多模态数据分析,传统的大数据分析平台无法进行有效的支撑。构建多源多模态数据分析平台可以有效地对多源多模态数据进行分析,从而创造更好的经济效益和社会效益。论文题目来源于北京市教委项目《基于社交感知的跨媒体数据分析与挖掘研究》。该课题将社交感知引入到多源多模态的跨媒体数据分析挖掘中,挖掘跨媒体数据之间的潜藏的多粒度、多角度关联,准确理解跨媒体数据内容。本文主要设计并实现能够对多源多模态的跨媒体数据进行采集、存储、分析和可视化的大数据平台。本文首先介绍了处理海量数据的大数据技术和擅长处理图像的深度学习技术,然后分析多源多模态数据分析相关技术,同时分析目前多源多模态数据分析平台的发展现状。论文针对目前单一数据分析平台无法对像含有文本、图片和视频等多源多模态数据进行分析的不足,设计并实现了基于分布式计算框架Spark和深度学习框架TensorFlow的多源多模态数据分析平台。从平台的性能、可靠性、扩展性、易用性等方面考虑,设计了多源多模态数据分析平台的总体架构,并进一步设计并实现多源多模态数据平台的采集、存储、分析和可视化四个模块。平台从而可以满足对海量的多源多模态数据进行分析的需求。最后,分别利用微博文本数据分析、图像内容识别和基于Twitter和Flickr数据的多源多模态图片推荐,验证了论文设计并实现的平台的数据采集、存储、分析和可视化能力。通过对微博文本数据进行分析,验证了平台对新浪微博数据的采集能力以及对文本数据的存储、分析和文本分析结果的可视化能力。通过对图像内容进行识别,验证了平台对图片数据的采集、存储、分析和可视化能力。基于Twitter和Flickr数据的多源多模态图片推荐验证了平台对Flickr和Twitter数据采集能力以及对多源多模态数据的存储能力、融合分析能力和分析结果的可视化能力。