互联网搜索数据预处理方法及其在股市分析中的应用

来源 :情报学报 | 被引量 : 0次 | 上传用户：hou0608

【摘要】

：

互联网搜索数据与社会经济行为的相关性已被多篇文献所证实，然而对于这项研究的基础工作——数据预处理，目前尚缺乏系统的方法。本文提出一套完整的搜索数据预处理流程，包括搜索

【作者】

：

刘颖吕本富彭赓

【机构】

：

中国科学院研究生院管理学院

【出处】

：

情报学报

【发表日期】

：

2011年10期

【关键词】

：

互联网搜索数据预处理先行关键词指数时差关系判定 Internet search data data preprocessing leading key

【基金项目】

：

本文得到国家自然科学基金（70972104,70772103）、北京市自然科学基金（9083017）、阿里巴巴青年学者支持计划（Ali.2010.A.5）的支持.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网搜索数据与社会经济行为的相关性已被多篇文献所证实，然而对于这项研究的基础工作——数据预处理，目前尚缺乏系统的方法。本文提出一套完整的搜索数据预处理流程，包括搜索关键词的选择、时差关系判定、关键词指数合成等步骤，并对各关键步骤给出了处理方法及标准。通过该方法可以得到稳定且高拟合度的先行关键词指数。本文以股票市场中上证指数为研究对象，实证检验得出，合成后的先行关键词指数与上证指数的拟合优度高达0．979。Granger检验证实了对上证指数具有显著的预测能力，回归结果显示关键词指数每变动1个百分点，后一期

其他文献

一种基于泊松估计的可控特征选择算法

特征选择是文本分类的关键技术之一。本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失

期刊

泊松估计语义特征率失真理论可控特征选择Poisson estimates semantic feature rate distortion theory

基于PrestigeRank算法与同行评议的科技论文评价研究

利用PrestigeRank算法对2004—2008年《中国科技论文与引文数据库》（CSTPCD）中收录的科技论文进行了评价研究，并选取了预防医学领域中PrestigeRank算法排序靠前的论文进行同行评

期刊

PrestigeRank科技论文评价同行评议PAGERANKPrestigeRank scientific papers evaluation pe

菌根真菌定殖检测技术研究进展

菌根真菌可与植物根系形成菌根共生体,从而影响植物生长发育。绝大多数菌根真菌促进植物生长,并能够促进植物抵御环境胁迫,因而了解菌根真菌在植物根部的定殖具有重要意义。

期刊

菌根锥虫蓝染色法免疫组化原位杂交法

洛特卡现象在汉语词汇句法功能分布复杂度中的呈现

本文基于大规模清华树库，从中统计了汉语词汇在句法结构中充当的句法成分，获取了汉语词汇的句法功能分布，并给出了汉语词汇句法功能分布复杂度的定义。在对汉语词汇按照汉语词汇

期刊

洛特卡现象汉语词汇句法功能分布复杂度清华树库Lotka＇s phenomenon Chinese word syntactic function d

基于CRF模型的半监督学习迭代观点句识别研究

本文从句子级的角度进行了中文文本的情感倾向分析，提出以HowNet中的情感词表为种子情感词集，采用基于CRF模型的半监督学习迭代方法获取大量评价词，然后依据中文词间的语义规则

期刊

CRF观点句半监督情感倾向性CRF sentiment sentence semi-supervised sentiment analysis

基于HTML树的网页结构相似度研究

HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树

期刊

HTML网页网页信息提取结构相似度BasedWeb结构相似性匹配规则度量模型计算方法网页信息块PYTHON语言自由信息比较数据表实验

查询分类在跨语言检索中的应用研究

文章旨在探讨查询分类技术和跨语言检索技术的关系,前者的应用能否改善后者的系统性能是核心问题。首先提出一种基于查询分类的标准化折扣累积增量评价指标,通过对采用查询分

期刊

标准化折扣累积增量查询分类查询翻译消歧算法NDCG query classification query translation disambiguati

高隔离度X波段RF MEMS电容式并联开关

研究了一种新型的、应用于X波段的高隔离度RFMEMS电容式并联开关结构。相比于普通的并联结构，该开关通过共面波导（CPW）传输线与地平面之间的衬底刻槽结构将隔离度提高了7dB，关态

期刊

射频微机电系统开关隔离度X波段衬底刻槽RF MEMS switch isolation X band groove

互联网搜索数据预处理方法及其在股市分析中的应用

其他学术论文