面向信息分析与预测的网络搜索关键词集中度和相关度研究

来源 :武汉大学 | 被引量 : 8次 | 上传用户:cgrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于网络搜索的信息分析与预测是依据用户的网络搜索行为来解释事物内在规律,并对事物未知变化趋势进行估计的一种信息分析与预测活动。它的起源和发展离不开互联网的普及和发展,尤其是网络搜索引擎的出现,为信息分析与预测提供了庞大的用户样本和海量的数据。国外研究人员在本世纪初就开始了该领域的实证研究, Ginsberg等人针对流感流行趋势的研究成为该领域研究的重要代表成果,也推动了基于网络搜索的信息分析与预测研究成为国内外学者广泛关注的研究内容。本文以基于网络搜索的信息分析与预测活动中的重要环节——关键词选择作为研究对象,详细介绍了基于网络搜索的信息分析与预测活动的相关理论,阐述了面向信息分析与预测的网络搜索关键词选择的基本过程,详细介绍了关键词选择的两种方法,即关键词集中度和相关度,尝试使用这两种方法对观测关键词的选择进行实验效果分析。全文共分六章,主要内容如下:(1)基于网络搜索的信息分析与预测的相关理论本章系统阐述了基于网络搜索的信息分析与预测的概念、起源和发展、作用、特点,以及基于网络搜索的信息分析与预测的研究视角、内在机制及影响因素,并利用Ginsberg的45个流感关键词分析了基于网络搜索的信息分析与预测的局限性,最后提出了基于网络搜索的信息分析与预测的基本流程。(2)面向信息分析与预测的网络搜索关键词选择的基本过程本章重点介绍了分析预测过程的重要环节——关键词选择的过程。关键词、数据集以及分析预测模型是基于网络搜索的信息分析与预测的三个主要因素。基于网络搜索的信息分析与预测活动包括前期分析、关键词选择、相关分析及预测模型建立、效果验证、实施预测、动态修正等六个主要环节。关键词的选择过程包括任务准备、选择关键词数据来源、选择初始关键词、收集候选关键词以及确定观测关键词、确定关键词的分析与预测组合以及反馈修改等七个主要过程。关键词选择过程是从初始关键词、候选关键词到观测关键词的一个过程。对于最终用于分析与预测的观测关键词则具有典型的马太效应、长尾效应等现象,其离散分布则呈现出一种Zipf分布特征。(3)关键词集中度分析本章引入了关键词集中度、关键词移动平均集中度、关键词集中度变化率以及关键词移动平均集中度变化率等概念。以Ginsberg的45个流感关键词作为研究对象,发现在区分关键词“稳定—突变”特征的效果上,关键词集中度变化率要优于关键词集中度。(4)关键词相关度分析本章主要介绍了简单相关性分析和时序相关分析方法,包括pearson、spearman、时差相关、峰谷对应等相关分析方法。在与万科股票相关的关键词选择实例分析中,发现pearson、spearman可以有效地判断同步条件下的关键词相关性强弱特征,而时差相关分析方法则可以有效地识别关键词“领先—滞后”特征。(5)H7N9禽流感关键词选择实验研究本章主要结合2013年上半年爆发的H7N9禽流感疫情,运用关键词集中度和相关度分析方法,对与H7N9禽流感爆发有关的关键词进行比较分析,并得出了可用于不同研究领域的三组观测关键词表。(6)对论文的整体进行总结和展望本章对全文的研究工作进行总结,并对基于网络搜索的信息分析与预测研究的未来发展方向进行了展望,提出了三个有价值的研究问题。
其他文献
在高考制度改革的大背景下,为了有效提高高中英语教学水平,提升学生应用英语知识的能力,文章从改革高中英语教学的目的入手,着重探讨了新高考改革下高中英语教学的改善策略。
疏勒河昌马水库于2001年12月下闸蓄水,设计总库容1.934亿m~3。建成后大坝抬高了水位,在库区内形成淤积,严重影响水库的使用效益。为了对昌马水库淤积现状进行分析,文章以2015
目的:探讨人文关怀在改革冠心病重症监护病房(CCU)探视管理制度,构建新型探视管理制度中的应用。方法:结合人文关怀在CCU探视管理制度改革中的应用,实行限制式探视制度,取得
目的:探讨分析炎性反应因子在老年甲状腺功能亢进(甲亢)性肝损害患者中的水平变化及其临床意义。方法:选取60例甲亢性肝损害患者,按照年龄分为中青年组与老年组,两组均为30例
土体是一个多相体,土体当中存在的应力场与渗流场之间相互作用相互影响。文章以某拟建在深厚覆盖层上的心墙坝为研究对象,利用Geo-studio有限元软件中的Seep模块和Slope模块,
口服结肠定位给药系统(oral colon-specific drug delivery system),是指通过适当的方法,使药物经口服后避免在胃和小肠中释放,运送至回盲部后才开始释放,从而发挥局部或全身
介绍了生物质循环流化床锅炉的布风板阻力特性试验和料层阻力特性试验方法,验证了料层阻力计算公式,并将料层阻力计算公式引入到DCS中,冷态试验阶段可参考料层阻力确定临界流化
随着1844年开启的哲学性变革,马克思在人的本质研究领域也开始了一场深刻革命。自1843年起,马克思提出了6个有关人的本质论断,但这些论断并不是混乱无序的。马克思在确认人是