论文部分内容阅读
随着互联网的发展,越来越多的网民习惯从互联网获取信息,越来越多的企业开始试图从网络中获取经验相关的信息。互联网已经成为继报纸,广播,电视之后的“第四媒体”。互联网因其便捷性,成为人们获取信息的首要来源。同时,多种社交媒体的出现,例如微博,朋友圈,facebook,twitter的出现,使人们可以大量发表自己观点。这些观点,对于企业有着重要的意义。这些观点可以帮助企业知道用户对其商品的观点,可以帮助企业知道其对手对自己商品的观点。这些信息可以帮助电影院进行电影票房预测。同时,这些信息也可以帮助人们更好了解自己生活的舆论等。情感分析(sentiment analysis)就是用来完成以上任务的一种技术。情感分析主要是用来解决谁对什么东西的什么方面有什么观点。涉及主体——人,客体——特征,观点——情感词等。情感分析)又被称为观点发现(opinion find)。是从大量文本中找到主观信息。例如,某人关于某事物的评价。某人对于某个观点的意见等。其中,情感词库建立是情感分析的重要组成部分。本文主要研究两个问题:第一,情感词库是与特定领域相关的,不同领域的情感词库具有明显不同。同一个词汇,在不同情感词库中,可能有着不同的情感色彩。如何自动化的建立一个金融情感词库呢?第二,情感词库的所有情感词汇并不是都具有相同的情感色彩,如何对这些情感词进行排名呢?本文将自然语言处理技术与金融相关技术结合,力图解决以上问题。首先,本文研究了基础了自然语言处理技术;然后建立了基于以上理论基础的系统。最后通过实验,研究不同参数对于情感词库研究的影响。论文主要包括五个章节的内容:第一章,绪论。介绍了国外相关学者对于本课题的研究现状。阐述了本文的研究方法和研究思路。第二章,相关知识。介绍了常用的自然语言处理技术。常用的文本分类技术以及其数学原理。第三章,系统实现。介绍了本系统的开发与实现。介绍了基于lucene的整体系统开发,分词,索引,以及文本自动生成技术。第四章,算法与实验,本部分阐述了基于PLSA的Trend-PLSA算法。词算法将趋势与PLSA进行融合,将元数据与概率图模型相结合,从而提高情感词库的正确率。最后,本部分阐述了不同实验参数对于情感词库建立的影响。第五章,总结和期望。首先总结了本文的主要工作,以及本文的主要贡献。最后提出了未来研究的新方向和新思路。本文采用如下技术进行研究:首先,本文采用了自然语言处理技术。自然语言处理技术是一门计算机与语言学相结合的交叉学科。自然语言处理技术致力于让机器理解人类的语言,如TF-IDF求值,主题模型,文本向量化方法,索引建立等。其次,本文采用了定性与定量相结合的技术。本文所研究的对象是情感分析。情感词归类本身属于一个定性的问题,将给定的词汇归属到指定类中。对于给定的情感词找到所属的情感类型即可。同时,本文也给每个情感词一个定量的数值,对所有的情感词进行排序,这个值的绝对值越大表明情感词的感情色彩越强。本文处理的股价信息是一个定量的数据,通过相关算法,本文把定量的数据转化为定性的信息,通过这样定性的信息,进行情感词判断。总之,通过定性与定量相结合的方法,提高了情感词库的正确性,也提高了情感词库的实用性。通过实现,本文发现,本文所提出的情感词生成算法具有较强的实用性。相比其他的情感词提取算法,本文提出的情感词生成算法正确率较高。本文的创新之处,可以通过如下方面进行阐述。本文的创新之处主要是算法和技术上的创新。首先,本文不需要预先选定种子词汇,所谓的种子词汇,就是预先选择的词汇。情感词库常规生成方法,要先选定若干的种子词汇。如果没有良好的种子词汇,所有的情感词库只能是水中花,镜中月。优秀的种子词汇,是高质量情感词库生成的保证。好的情感词库使得情感词库具有较强的泛化能力。对于特定领域的情感词库建立,“种子”词汇的选择需要选择者具有很好的专家素养。从经济角度分析,雇佣这些专家来进行种子词汇挑选的费用也是相当昂贵的。同时,这些词汇应当具有普遍性,有较强的情感词性。但这两者通常是互相矛盾的,这样的任务对于专家而言也并不是一项轻易的工作而本文所提出的算法,是一种非监督式学习的算法,这种算法不需要预先知道任何与情感有关的词汇。即不需要知道种子词汇。从而大大减少了情感词库建立的费用,加速了情感词库生成的速度。其次,词语的情感性是随着时间变化而变化的,新的情感词不断涌现。旧的词汇又会有新的情感词性。现有的算法不具有这种随时间变化而自动变化的自适应能力。本文所设计的系统,可以不断的从网上获取股价数据,自动的将股价数据与文本进行匹配,从而可以随时间变化不断生成新的情感词。这样生成的情感词库具有很强的时效性。然后,同一个词汇在不同领域中具有不同的情感色彩。不同领域的情感词有着不同的排名。本文通过排序算法,对所有的情感词进行了排序。最后,本文提出了基于隐含语义分析算法的趋势-隐含语义分析算法。本文实验了简单贝叶斯算法。对比了简单贝叶斯算法和隐含语义分析算法的实验效果。实现结果显示,本算法相比其他算法相比,能更好的利用股价信息,从而做出更准确的情感词归类,构建更为优秀的情感词库。