基于股价的情感词库获取

被引量 : 0次 | 上传用户:snakegmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,越来越多的网民习惯从互联网获取信息,越来越多的企业开始试图从网络中获取经验相关的信息。互联网已经成为继报纸,广播,电视之后的“第四媒体”。互联网因其便捷性,成为人们获取信息的首要来源。同时,多种社交媒体的出现,例如微博,朋友圈,facebook,twitter的出现,使人们可以大量发表自己观点。这些观点,对于企业有着重要的意义。这些观点可以帮助企业知道用户对其商品的观点,可以帮助企业知道其对手对自己商品的观点。这些信息可以帮助电影院进行电影票房预测。同时,这些信息也可以帮助人们更好了解自己生活的舆论等。情感分析(sentiment analysis)就是用来完成以上任务的一种技术。情感分析主要是用来解决谁对什么东西的什么方面有什么观点。涉及主体——人,客体——特征,观点——情感词等。情感分析)又被称为观点发现(opinion find)。是从大量文本中找到主观信息。例如,某人关于某事物的评价。某人对于某个观点的意见等。其中,情感词库建立是情感分析的重要组成部分。本文主要研究两个问题:第一,情感词库是与特定领域相关的,不同领域的情感词库具有明显不同。同一个词汇,在不同情感词库中,可能有着不同的情感色彩。如何自动化的建立一个金融情感词库呢?第二,情感词库的所有情感词汇并不是都具有相同的情感色彩,如何对这些情感词进行排名呢?本文将自然语言处理技术与金融相关技术结合,力图解决以上问题。首先,本文研究了基础了自然语言处理技术;然后建立了基于以上理论基础的系统。最后通过实验,研究不同参数对于情感词库研究的影响。论文主要包括五个章节的内容:第一章,绪论。介绍了国外相关学者对于本课题的研究现状。阐述了本文的研究方法和研究思路。第二章,相关知识。介绍了常用的自然语言处理技术。常用的文本分类技术以及其数学原理。第三章,系统实现。介绍了本系统的开发与实现。介绍了基于lucene的整体系统开发,分词,索引,以及文本自动生成技术。第四章,算法与实验,本部分阐述了基于PLSA的Trend-PLSA算法。词算法将趋势与PLSA进行融合,将元数据与概率图模型相结合,从而提高情感词库的正确率。最后,本部分阐述了不同实验参数对于情感词库建立的影响。第五章,总结和期望。首先总结了本文的主要工作,以及本文的主要贡献。最后提出了未来研究的新方向和新思路。本文采用如下技术进行研究:首先,本文采用了自然语言处理技术。自然语言处理技术是一门计算机与语言学相结合的交叉学科。自然语言处理技术致力于让机器理解人类的语言,如TF-IDF求值,主题模型,文本向量化方法,索引建立等。其次,本文采用了定性与定量相结合的技术。本文所研究的对象是情感分析。情感词归类本身属于一个定性的问题,将给定的词汇归属到指定类中。对于给定的情感词找到所属的情感类型即可。同时,本文也给每个情感词一个定量的数值,对所有的情感词进行排序,这个值的绝对值越大表明情感词的感情色彩越强。本文处理的股价信息是一个定量的数据,通过相关算法,本文把定量的数据转化为定性的信息,通过这样定性的信息,进行情感词判断。总之,通过定性与定量相结合的方法,提高了情感词库的正确性,也提高了情感词库的实用性。通过实现,本文发现,本文所提出的情感词生成算法具有较强的实用性。相比其他的情感词提取算法,本文提出的情感词生成算法正确率较高。本文的创新之处,可以通过如下方面进行阐述。本文的创新之处主要是算法和技术上的创新。首先,本文不需要预先选定种子词汇,所谓的种子词汇,就是预先选择的词汇。情感词库常规生成方法,要先选定若干的种子词汇。如果没有良好的种子词汇,所有的情感词库只能是水中花,镜中月。优秀的种子词汇,是高质量情感词库生成的保证。好的情感词库使得情感词库具有较强的泛化能力。对于特定领域的情感词库建立,“种子”词汇的选择需要选择者具有很好的专家素养。从经济角度分析,雇佣这些专家来进行种子词汇挑选的费用也是相当昂贵的。同时,这些词汇应当具有普遍性,有较强的情感词性。但这两者通常是互相矛盾的,这样的任务对于专家而言也并不是一项轻易的工作而本文所提出的算法,是一种非监督式学习的算法,这种算法不需要预先知道任何与情感有关的词汇。即不需要知道种子词汇。从而大大减少了情感词库建立的费用,加速了情感词库生成的速度。其次,词语的情感性是随着时间变化而变化的,新的情感词不断涌现。旧的词汇又会有新的情感词性。现有的算法不具有这种随时间变化而自动变化的自适应能力。本文所设计的系统,可以不断的从网上获取股价数据,自动的将股价数据与文本进行匹配,从而可以随时间变化不断生成新的情感词。这样生成的情感词库具有很强的时效性。然后,同一个词汇在不同领域中具有不同的情感色彩。不同领域的情感词有着不同的排名。本文通过排序算法,对所有的情感词进行了排序。最后,本文提出了基于隐含语义分析算法的趋势-隐含语义分析算法。本文实验了简单贝叶斯算法。对比了简单贝叶斯算法和隐含语义分析算法的实验效果。实现结果显示,本算法相比其他算法相比,能更好的利用股价信息,从而做出更准确的情感词归类,构建更为优秀的情感词库。
其他文献
诉讼调解作为我国一项重要的诉讼制度,被国际司法界誉为“东方经验”。它符合我国以和为贵的文化传统,使争议在群众的心理上得到真正的解决。基层法院特别是其派出的基层人民法
自然主义是欧洲乃至世界文学史上重要的文学流派。19世纪中后期,自然主义文学兴起于法国,涌现了一大批著名的自然主义作家,埃米尔·左拉就是其中之一。他的小说《小酒店》更
近年来,经济全球化的影响范围不断扩大,中国企业适应全球化纷纷开始自身转型或迅速扩张,在此过程中,很多企业会采取并购的方式,降低企业进入新行业或新地区的壁垒。并购可在
农业技术是农业发展的推动力量,现代农业离不开现代农业技术。江西省是我国中部地区具有代表性的粮食主产区,农民多以水稻种植为主,因此,基于农户需求角度,研究江西省水稻技术服务
目的探究在对患者进行口腔种植修复时,应用附着龈重建技术的效果分析实际临床应用价值。方法本次研究实验时间段设置为2018年1月-2019年2月,在该时间段内与我院中选择接受负
成熟社会经济体产生的博弈理论,可以窥见它们在民主方面存在的潜在陷阱,使其他国家或者地区以此为鉴,改进发展状态。但是,如果一个社会体在否定了这种民主的潜在陷阱时却又掉
第一部分:贝特类药物在2型糖尿病患者调脂治疗中的作用根据中华医学会糖尿病学分会的调查,近30年来,我国成年人糖尿病患病率由0.7%增长至9.7%,其中约95%的糖尿病患者为2型糖尿病
近些年,随着我国财税体制的改革以及对行政事业单位预算管理的重视,预算绩效管理逐步发挥了其优越性和科学性,对提高行政事业单位财政预算使用效率起着非常重要的作用。预算
摘要:近年来,我国国民经济快速发展,城市商品房建设步伐逐步加快,居民居住条件有了很大改善。然而,居高不下的房价问题开始成为社会普遍关注的问题。为了控制不断上涨的房价,
摘要:本文通过对总用地面积93600平方米,总建筑面积153000平方米的高桥新城B4项目市场定位的研究,分析了在房产调控长期化、房产行业相对成熟、房产利润趋于平均、消费者日益