论文部分内容阅读
社交媒体平台是获取人们的观点、态度、意图和主观内心世界的一种重要途径,而自然语言处理和情感分析等相关技术则提供了有效的处理手段。本文面向微博的大规模文本数据,对用户的消费意图进行了预测,并发现用户的消费行为会受其情绪和情感的影响,在消费意图识别任务中侧重对情绪信息进行了详细分析。本文的研究工作涉及到了文本情绪分类、意图领域分类和消费意图研究,这些工作为舆情分析、对话系统以及消费预测等应用提供了有效的技术支持,本文的研究具有重要的理论价值和研究意义。 本文的主要研究工作如下: 1.基于情绪词向量的文本情绪分类方法。传统的基于分布式假说生成的词向量并没有携带词的情绪信息,但是词的情绪属性是一类非常重要的语义知识,传统的词向量表示会直接影响情绪分析的性能。因此,本章提出了基于情绪词向量的文本情绪分类方法。首先生成了融合有情绪信息的词向量,然后将情绪词向量用于初始化情绪分类模型,实验表明,融合有情绪信息的词向量可以有效提高情绪分类任务的性能。 2.基于概念图谱和语言模型的意图领域分类方法。本文针对对话系统中意图领域分类任务的大规模语料不易获取和用户输入具有多样性问题,提出了一种基于概念图谱和语言模型的意图领域分类方法。该方法显式地将知识图谱中的上层概念应用到数据处理过程中,将用户的意图抽象到概念层次,同时为了减少概念间的歧义,进一步使用了语言模型对所有的概念进行打分排序,选择出最适合语境的概念。由于概念图谱这类额外信息和知识的加入,可以使得分类模型在小规模的训练数据集上,依旧能够保持较高的泛化率;并且该方法对领域的依赖性较小,领域移植性强。实验表明,该模型在SMP-ECDT数据集上的宏F1值可以达到94.21。 3.基于概念图谱和情绪知识的消费意图分类。由于用户的消费意图会受到其情绪和情感的影响,因此本文研究了情绪对消费意图识别任务的影响,提出了一种基于概念图谱和情绪知识的消费意图分类模型。该方法首先利用了概念图谱对输入数据进行处理,然后将通过文本情绪分类模型抽取得到的高级特征融入到消费意图分类模型中。实验结果表明,加入的情绪知识可以提高消费意图识别的准确性,并且,当一个消费领域有更多情绪表达时,情绪知识对消费意图识别的帮助更大。