论文部分内容阅读
随着互联网的发展,网络上的信息呈爆炸性增长,互联网已经成为人们发表观点和评论的重要载体之一,这些信息中蕴涵着极高的价值亟待人们去挖掘研究。现在最热门的社交网络、电子商务已经成为当前人们关注的焦点,这些信息可以相当真实地反映民众对于某一事件或者某一商品的态度,对此类文本进行情感倾向性分析和挖掘可以帮助人们分析舆论倾向、商品价值等等。在对文本进行情感分析之前,为了排除无情感倾向的文本的干扰,需要对网络上的文本进行筛选,即将含有主观评价的文本和客观描述的文本分开。因此本论文将针对文本的情感倾向性分类和文本主客观分类进行研究。本论文目的为寻找一种区别与传统文本分类的方法,着重研究句子结构、句型、词语间依赖关系、修辞手法等等一系列纹理特征与文本情感倾向性、文本主客观性之间的联系,同时尝试将文本纹理结合传统的基于词语或者词组情感的情感分类方式以及基于语义规则的主客观分类方式以获得更好的分类效果。本论文的主要工作包括:1.总结了一个经典的文本分类系统的整个流程,然后比较现存的文本分类的常见技术,包括各文本表示方式,特征选取方法,特征权重计算,文本分类器以及文本分类结果评估,并分别介绍各种传统的主客观分类方法和文本倾向性分析方法,然后对其各自的优点和局限性进行比较。2.详细描述本文提出的文本纹理这一概念,并在文本分类系统的基础知识的基础上,提出文本纹理在文本分类中的应用场景,实验中使用的文本纹理主要包括:排比的修辞手法、否定修饰、程度副词修饰、转折句型等。3.重点介绍并实现了文本的主客观分类,并且创新性地将文本纹理特征引入主客观分类中,并给出分类流程的系统框图,系统框图中包括分词、Stanford Parser词语间关系解析、特征抽取、特征构造、分类器、分类结果评估部分,其后本文介绍了其中每个部分的实现方法,最后给出了与现存分类方法的对比实验步骤、数据及分析评估。4.重点介绍并实现了文本的情感倾向性分类,并且同样在训练与分类过程中引入了文本纹理的一系列特征,以及分类流程的系统框图,最后给出了与现存分类方法的对比实验步骤、数据及分析评估。5.总结了文本纹理在文本主客观分类和情感倾向性分类中的实验效果,并且展望了在现实中的应用。本课题的研究成果可以应用于网络舆论领域、商品评价的情感性识别、文学作品的情感识别、电影评论的情感性识别等等。