论文部分内容阅读
随着电子商务的快速发展及其对信息交互的支持,用户评论数据与日俱增。商品评论通常包括一个数字评分和一段非结构化的文字描述。其中,数字评分反映了评论商品的总体评价,而评论文本则提供更为详细的商品属性描述信息。评论内容是从用户角度出发对商品的评价,如用户使用商品或体验服务后的感受,所以评论内容所传达的信息是决定用户消费行为的关键因素之一。商家试图通过评论为商品打口碑、找问题;消费者则阅读评论来全面了解商品。因此,对评论数据的收集、整理和分析逐渐成为电子商务网站的一项重要工作。然而,由于移动终端和无线网络的普及,评论数据的生成已不受时间和空间约束,导致评论数量呈爆炸式增长;同时,移动设备的出现对评论处理任务提出更高的要求,即处理结果要精简。面对海量的评论数据,为了提高评论信息的利用率,如何分析和组织评论内容是亟待解决的问题。有效组织评论内容不仅可以解决信息过载的问题,还能提高用户体验从而增强电子商务网站的可用性。当前的评论组织方法通常根据评论质量选择top-K条评论作为结果集呈现给用户。可以从商品属性覆盖度和观点分布一致性这两方面来评估评论质量。但现有方法并未区分top-K评论集中属性的重要性,也没考虑其中观点的多样性。因此本文提出基于属性重要程度的代表性评论集生成方案,令生成的结果集质量高且观点丰富。此外,已有工作通常把每条评论与单件商品关联起来,即默认一条评论只针对一件商品。对类似餐馆的应用场景而言,现有代表性评论集生成方案存在粒度较粗的缺点。单条餐馆评论可能涉及多道菜,用户更希望看到基于菜的评论组织结果。为从评论集中生成每件单品的评论摘要,本文首次提出针对评论包含多件商品的解决方案。以单品为中心为评论集中每件单品生成评论摘要,包括总体评分和K条最能代表这件商品的评论短语。本文主要针对以下两大问题展开研究:·评论质量评估和top-K评论集生成技术1.首先,提出一种衡量商品属性重要性的方法,计算属性对应权重。通过加入属性重要性这一因素,提高评估评论质量的准确度。2.然后,介绍一种基于聚类的评论多样性评估方法,该方法根据属性观点上的分布对评论进行聚类。3.接着,设计一种多样化算法从不同类中按比例地选择评论,使最终选择的top-K条评论能覆盖更多属性的观点,反映商品评论集中的观点分布。4.最后,从网络购物网站爬取商品评论数据进行实验,验证本文top-K评论评估与选择方案的有效性。·以单品为中心的评论摘要生成技术1.首先,提出一种判断评论短语是否包含用户观点的方法。该方法基于非监督学习,根据评论短语中N元词串的信息熵对评论短语进行分类。2.然后,设计三种挖掘评论短语观点的方法,通过评论的整体评分来预测其中每条有观点短语的对应评分,并以此作为评论短语的观点。根据商品相关评论短语的评分,可以进一步得到一个商品评分。3.接着,介绍两种多样化算法分别从按观点以及按属性观点聚合的类中选择评论短语作为评论摘要,使最终选择的K条评论短语能达到商品属性和用户观点的多样化。4.最后,从在线评论网站爬取餐馆评论数据进行实验,验证本文以单品为中心的评论摘要生成方案的有效性。