论文部分内容阅读
随着互联网技术突飞猛进的发展和社会日新月异的进步,手机通信已经成为人们生活中不可或缺的一部分。与此同时,中国传统的三大运营商之间的角逐不断加剧。电信行业提供的产品越来越多,人们对生活标准的质量要求也越来越高并且不再满足于企业所提供的产品质量,而是从消费者购物体验的角度出发,更加注重企业所提供的服务质量。在面对如此情形下,客户关系管理已经成为企业在未来发展中重点关注的话题。而客户投诉管理作为客户关系管理的一部分。如果企业不能满足客户的需求,则会引起用户的不满和投诉。企业妥善的处理客户投诉,发现客户潜在的需求,从而促使企业改进产品或服务的质量,建立良好的企业形象和口碑,为企业的客户关系维护提供了有效的支持。因此,针对这些非结构化的短文本投诉,如何有效的挖掘文本信息,构建投诉短文本分类算法对于电信行业提升服务水平显得尤为重要。本文构建了一个新的短文本分类算法,对投诉文本从文本内容和提取的特征向量两方面进行扩展。首先采用LDA主题模型提取出主题-词概率分布,基于主题-词概率最大的原则对投诉短文本进行扩展,克服了文本短而稀疏的不足,并对扩展后的短文本采用Doc2vec文档向量表示模型提取特征向量,并与LDA主题模型提取的特征向量相拼接,使得提取出的特征向量表示内容更加丰富,并采用SVM分类器进行分类。最后对某电信公司的客户投诉短文本进行分类实验。相比于采用单一的主题模型或者Doc2vec进行文本表示的方法,本文提出的方法能有效解决投诉文本长度短和特征稀疏的问题,提高分类性能。