互联网搜索数据预处理方法及其在股市分析中的应用

来源 :情报学报 | 被引量 : 0次 | 上传用户:hou0608
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网搜索数据与社会经济行为的相关性已被多篇文献所证实,然而对于这项研究的基础工作——数据预处理,目前尚缺乏系统的方法。本文提出一套完整的搜索数据预处理流程,包括搜索关键词的选择、时差关系判定、关键词指数合成等步骤,并对各关键步骤给出了处理方法及标准。通过该方法可以得到稳定且高拟合度的先行关键词指数。本文以股票市场中上证指数为研究对象,实证检验得出,合成后的先行关键词指数与上证指数的拟合优度高达0.979。Granger检验证实了对上证指数具有显著的预测能力,回归结果显示关键词指数每变动1个百分点,后一期
其他文献
特征选择是文本分类的关键技术之一。本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失
利用PrestigeRank算法对2004—2008年《中国科技论文与引文数据库》(CSTPCD)中收录的科技论文进行了评价研究,并选取了预防医学领域中PrestigeRank算法排序靠前的论文进行同行评
菌根真菌可与植物根系形成菌根共生体,从而影响植物生长发育。绝大多数菌根真菌促进植物生长,并能够促进植物抵御环境胁迫,因而了解菌根真菌在植物根部的定殖具有重要意义。
本文基于大规模清华树库,从中统计了汉语词汇在句法结构中充当的句法成分,获取了汉语词汇的句法功能分布,并给出了汉语词汇句法功能分布复杂度的定义。在对汉语词汇按照汉语词汇
本文从句子级的角度进行了中文文本的情感倾向分析,提出以HowNet中的情感词表为种子情感词集,采用基于CRF模型的半监督学习迭代方法获取大量评价词,然后依据中文词间的语义规则
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树
文章旨在探讨查询分类技术和跨语言检索技术的关系,前者的应用能否改善后者的系统性能是核心问题。首先提出一种基于查询分类的标准化折扣累积增量评价指标,通过对采用查询分
研究了一种新型的、应用于X波段的高隔离度RFMEMS电容式并联开关结构。相比于普通的并联结构,该开关通过共面波导(CPW)传输线与地平面之间的衬底刻槽结构将隔离度提高了7dB,关态