论文部分内容阅读
随着电子商务的蓬勃发展,网络中广泛存在的产品质量反馈数据量爆炸性增长,严重增加了质量安全的不确定性,频繁爆发的网络产品质量事件也说明了这一点。如何从海量的网络信息中发现能反映产品质量问题的重要信息,提高质量控制过程的效率,是一个具有较强理论和现实意义的问题。针对以上问题,本文重点研究了基于分层狄利克雷过程(Hierarchical Dirichlet Processes,HDP)主题模型的产品质量事件监测方法以及基于本体的质量事件追溯方法,主要研究内容如下:(1)基于HDP主题模型的产品质量事件监测方法研究。考虑到产品评论类文本的特征稀疏性问题以及主题挖掘效果,采用基于分层狄利克雷过程的主题聚类算法对分段时间窗的文本集进行建模,实现主题提取。其次根据引入的时间属性分析主题强度演化和内容演化过程以监测产品质量特征变化。最后,针对产品特征主题聚类结果中存在冗余词较多的问题,在原有主题挖掘方法基础上,增加主题词排序处理,减少冗余词的概率,让产品主题含义更确切。(2)基于本体的产品质量事件追溯模型构建。通过研究分析产品质量事件知识,将产品质量事件领域一般化的事件类、事件要素及事件间的语义关系抽象化,并采用领域概念自动抽取框架与基于触发词的事件类划分方法进行知识提取。同时根据质量事件知识的特点,从事件要素、事件文本特征、事件关系、产品组件四个方面构建产品质量事件表示本体模型,该模型可用于事件语义信息查询,并采用追溯有向图构建追溯链,实现事件流追溯。(3)以三星note7产品为对象的实例验证。采用上述监测方法对note7产品文本集进行主题演化分析,进而实现质量事件监测。以三星note7电池爆炸事件为研究对象,利用创建的事件本体表示事件类的语义信息与关联关系,追溯产品质量事件演变过程。本文研究基于分层狄利克雷过程的质量事件监测方法,构建产品质量事件表示本体模型,并通过近年来发生的重大产品质量事件实例来分析和验证本文方法的有效性。