论文部分内容阅读
互联网的发展催生了很多社交网络的衍生产品,除了大家所熟知的微信、微博、论坛、电子邮件等,知识问答,小密圈也逐渐进入人们的视野。无一例外,这些产品最重要的价值就在于海量的数据,其表现形式就是短文本数据。短文本成为日常人们信息分享,传播知识的媒介,并由此也影响着人们的生活和沟通习惯。通过对海量的短文本数据建立数学模型,分析用户的行为习惯、改善搜索引擎质量、企业投放广告等具有很好的指导意义。文本聚类是进行文本分析或预测的前提,有助于我们对这些文本信息的整体认识和把握。但短文本具有特征缺失、方言习语多、地域特征明显、善用同音词、网络新词多等特点,导致它的算法模型存在维度高、性能差、聚类结果漂移,无法发挥同义词的贡献,使得传统的聚类算法在短文本上使用的效果不佳。随着深度学习的不断发展,人们开始尝试使用深度学习算法来解决自然语言处理问题,Word2Vec就是Google发布的基于深度学习的文本处理工具,它提供了一种看起来无意义的向量模式对文本进行表示的方法。正是这种毫无规则的向量模式有效解决了传统向量空间模型维数过高的问题,同时还保留了词与词之间丰富的共现信息。针对如何解决短文本特征稀疏,改善短文本聚类质量的问题,本文提出了基于Word2Vec的短文本聚类算法模型,主要工作如下:针对前人的工作,细致的阐述了短文本聚类在文本挖掘领域的重要程度以及在聚类模型建立过程中的困难和应对策略。着重分析了短文本预处理过程中分词和去除停用词的问题,以及在特征选择过程中情感因子对聚类效果的影响。并对模型中常用的聚类算法、距离函数以及性能评价因素做了简要的介绍。详细介绍Word2Vec的底层算法原理,并基于大规模语料库使用Word2Vec训练词向量与建立传统的VSM模型实验验证Word2Vec在保留文本语义和处理短文本特征稀疏问题上的有效性。由于短文本的特殊性,直接应用传统的文本聚类算法将会产生两个重要的问题。第一,无法识别同义词在整个文本中的贡献;第二,在预处理阶段,将一些表情符号或者程度副词去除后会丢失部分语义信息。本文将词性分析、情感分析引入短文本聚类,利用Word2Vec训练出来的词向量模型结合特征权重选择算法对聚类算法中文本相似度模型进行改进,在融合词性和情感以及位置因素的前提下,改善短文本在聚类模型上聚焦性差的问题。提出将松弛词语移动距离(RWMD)应用到相似度算法模型中,并以此距离作为聚类的依据。接着,针对K-Means聚类算法对K值选取的问题,提出了一个以LDA算法结合K-Means算法的模型。最后,将上述模型应用在实验室“骕派智慧物流服务平台”项目中,根据服务平台提供的大规模短文本信息进行实验验证。结果表明,该方法相对于传统的聚类算法有较明显的进步。