论文部分内容阅读
随着移动互联网时期的到来和电子商务的快速普及,网络消费日趋成为消费主流,随之在电商平台或论坛产生的海量用户评论成为企业了解市场和消费者情感态度的最直接有效的途径。通过用户评论挖掘出客户的满意度,分析产品特征的可用性,为企业制定产品改进计划和创新方案提供指导和依据。同时,从网络舆情来了解用户需求的方法也使企业的调研成本得到了控制。本文以用户评论为研究对象,从良莠不齐的用户评论中提取出高质量的评论文本,利用文本分类,情感分析,序列模式挖掘等方法,实现了从用户评论中获取客户情感态度与产品特征可用性信息。本文主要研究内容如下:1.提出了一种基于文本相似度计算的无效评论识别方法。根据不同的无效评论种类深入分析出不同的评论特征并制定相应的识别方法,提高了无效评论的识别效果:利用词形词序句子相似度算法识别重复评论,避免信息冗余;利用词语相似度算法识别出与目标产品无关的评论;利用评论时间和购买时间之差识别出虚假评论。将本文方法与决策树方法的实验结果进行对比,本文的方法具有更高的识别精度和准确度。2.提出了一种基于语义语境的情感得分计算方法。首先将BiLSTM和CRF结合,构建BiLSTM-CRF模型对评论进行序列模式挖掘提取出产品特征词并将特征词所在的多情感强度句子分割为单情感强度的子句,得到该特征的语境。标注结果表明BiLSTM-CRF模型比BiLSTM和CRF模型标注的准确率更高;然后分别用句子粒度和词语粒度的训练集对COBW进行训练得到句子向量模型和词向量模型,利用模型得到情感词的语义向量和单情感强度句的语义向量,即该特征词在特定语境下的语义向量,计算二者的余弦相似度找出和单情感强度句最相似的情感词,则情感词的情感得分即为该单情感强度句中的产品特征的情感得分。3.将已有特征情感得分看作是总体为正态分布的一个样本,根据这些样本数据对总体分布的方差进行矩估计,对均值进行贝叶斯估计;建立以消费者满意度为核心的产品可用性评估函数,根据二八法则分析了影响产品可用性的关键特征确定方法及关键特征的可用性影响因子和可用性贡献值的计算方法,分析出提升产品可用性最有效的产品特征。