论文部分内容阅读
随着科学技术的飞速发展,互联网上随处可见的是用户对商品或者服务的评论,其中最有价值的信息莫过于人们对商品评论中带有的情感信息,这些信息对情感分类的研究具有很大的价值。但是,由于不同语言的情感资源在质量和数量上的分布不均匀,无法更好的对情感资源不足的语言进行情感分类。为解决此问题,研究者通常利用情感资源丰富的语言来解决资源缺乏语言的跨语言情感分类问题。传统的跨语言情感分类主要是使用机器翻译系统将一种语言翻译到另一种语言,然后在该语言下进行情感分类,但是机器翻译质量严重影响着分类的准确率。目前的跨语言情感分类问题是如何更好的减少不同语言之间的间隙,针对这一问题,本文对跨语言情感分类所面临的问题进行详细地分析,找到两种不同语言之间的映射表示关系,通过该映射来进行跨语言情感分类,主要研究内容如下。1)利用拉普拉斯映射对基于结构对应学习的跨语言情感分类算法(CLSCL)进行改进,提出了改进的算法(M-CLSCL),根据源语言和目标语言之间潜在的关系,选出轴心特征词对,最后借助选出来的轴心特征词对,学习一个映射函数,借助该函数来进行跨语言的情感分类。2)提出了一种基于Autoencoder的跨语言情感分类方法,该方法将两种语言(源语言和目标语言)通过Autoencoder学习一种共享表示(BLSR)。通过Autoencoder对两种不同语言进行学习处理得到其共享表示空间,学习到该空间后,将训练数据(源语言)映射到该空间中并训练分类器,测试数据(目标语言)同样映射到该空间进行测试。3)选取NLP&CC 2013跨语言情感分类数据集中的DVD和书籍评论的数据对提出的两种算法分别进行实验,通过实验结果得出:本文提出改进的基于结构对应学习的跨语言情感分类算法与原有算法在同一数据集上进行实验对比具有较高的准确率;第二种方法在同一数据集上情感分类的准确率较高于目前前沿算法如BSWE等算法。