论文部分内容阅读
基于网络搜索的信息分析与预测是依据用户的网络搜索行为来解释事物内在规律,并对事物未知变化趋势进行估计的一种信息分析与预测活动。它的起源和发展离不开互联网的普及和发展,尤其是网络搜索引擎的出现,为信息分析与预测提供了庞大的用户样本和海量的数据。国外研究人员在本世纪初就开始了该领域的实证研究, Ginsberg等人针对流感流行趋势的研究成为该领域研究的重要代表成果,也推动了基于网络搜索的信息分析与预测研究成为国内外学者广泛关注的研究内容。本文以基于网络搜索的信息分析与预测活动中的重要环节——关键词选择作为研究对象,详细介绍了基于网络搜索的信息分析与预测活动的相关理论,阐述了面向信息分析与预测的网络搜索关键词选择的基本过程,详细介绍了关键词选择的两种方法,即关键词集中度和相关度,尝试使用这两种方法对观测关键词的选择进行实验效果分析。全文共分六章,主要内容如下:(1)基于网络搜索的信息分析与预测的相关理论本章系统阐述了基于网络搜索的信息分析与预测的概念、起源和发展、作用、特点,以及基于网络搜索的信息分析与预测的研究视角、内在机制及影响因素,并利用Ginsberg的45个流感关键词分析了基于网络搜索的信息分析与预测的局限性,最后提出了基于网络搜索的信息分析与预测的基本流程。(2)面向信息分析与预测的网络搜索关键词选择的基本过程本章重点介绍了分析预测过程的重要环节——关键词选择的过程。关键词、数据集以及分析预测模型是基于网络搜索的信息分析与预测的三个主要因素。基于网络搜索的信息分析与预测活动包括前期分析、关键词选择、相关分析及预测模型建立、效果验证、实施预测、动态修正等六个主要环节。关键词的选择过程包括任务准备、选择关键词数据来源、选择初始关键词、收集候选关键词以及确定观测关键词、确定关键词的分析与预测组合以及反馈修改等七个主要过程。关键词选择过程是从初始关键词、候选关键词到观测关键词的一个过程。对于最终用于分析与预测的观测关键词则具有典型的马太效应、长尾效应等现象,其离散分布则呈现出一种Zipf分布特征。(3)关键词集中度分析本章引入了关键词集中度、关键词移动平均集中度、关键词集中度变化率以及关键词移动平均集中度变化率等概念。以Ginsberg的45个流感关键词作为研究对象,发现在区分关键词“稳定—突变”特征的效果上,关键词集中度变化率要优于关键词集中度。(4)关键词相关度分析本章主要介绍了简单相关性分析和时序相关分析方法,包括pearson、spearman、时差相关、峰谷对应等相关分析方法。在与万科股票相关的关键词选择实例分析中,发现pearson、spearman可以有效地判断同步条件下的关键词相关性强弱特征,而时差相关分析方法则可以有效地识别关键词“领先—滞后”特征。(5)H7N9禽流感关键词选择实验研究本章主要结合2013年上半年爆发的H7N9禽流感疫情,运用关键词集中度和相关度分析方法,对与H7N9禽流感爆发有关的关键词进行比较分析,并得出了可用于不同研究领域的三组观测关键词表。(6)对论文的整体进行总结和展望本章对全文的研究工作进行总结,并对基于网络搜索的信息分析与预测研究的未来发展方向进行了展望,提出了三个有价值的研究问题。