论文部分内容阅读
随着社交网络的普及,越来越多的用户通过社交平台传递信息,使得大量数据在社交网络上快速、广泛传播。社交网络中数据的存在形式不单是文本,还存在着图像、视频等多种类型。因此提取跨媒体数据中的语义信息,完成数据在统一语义空间中的特征表达具有重大意义。同时,用户在社交平台上的信息搜索需求日益增加。对于微博等平台上文本字数的限制问题,研究查询扩展的方法来满足用户搜索需求成为热点。本文完成的主要工作如下:(1)通过对原始AlexNet 网络结构进行改进,提出了一个针对社交网络数据特征提取的新型AlexNet-Social神经网络模型。AlexNet-Social神经网络模型可以更为有效地提取社交网络数据的深度语义信息,并减少模型参数计算量。在社交网络图像数据集上进行实验,AlexNet-Social神经网络模型的分类准确度指标比改进前的模型提升约5.6%,AlexNet-Social模型的训练效率比改进前的模型提升约36%。(2)提出了一个针对社交网络国民安全类事件的跨媒体语义模型CSMBA(Cross-modal Semantic Model Based on AlexNet-Social),模型采用深度神经网络分别提取文本与图像数据的特征,并采用注意力机制完成了两种语义特征的统一表达。在社交网络文本与图像数据集上,CSMBA模型对相关事件识别任务的精确率、召回值、F值评价指标相比对比模型均有较大提升。(3)提出了一个结合社交特性与时间因素的微博搜索算法WSAST(Weibo Searching Algorithm Combining Social and Time Factors)。在查询词拓展方面,提出了结合语义相似度与时间相似度进行查询词扩展的方法,不但利用了微博文本中的语义信息,而且考虑词语的时间分布状况。在搜索结果重排方面,采用结合文本词频与微博热度的重排,充分利用微博用户参与的社交特性来优化搜索结果。实验表明WSAST算法在搜索准确率指标上相比其他对比算法有最好的表现。WSAST算法有效地提高了微博搜索的表现,较好地满足用户的搜索需求。(4)设计实现了微博国民安全事件识别与话题搜索系统。通过需求分析确定系统的五个功能模块:数据预处理功能模块、国民安全事件数据库建立模块、国民安全事件类别扩展模块、微博话题搜索模块与系统可视化模块。对系统功能进行了测试,测试结果表明系统可以满足识别微博中国民安全事件以及优化用户搜索的需求。