论文部分内容阅读
短文本媒体逐渐成为人们日常生活中一种重要的信息来源,从短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要。与传统的新闻报道和科技文献等长文本相比,短文本通常具备内容简短随意、实时性强和数据量大等特点,这无疑给基于短文本的主题分析任务带来了巨大的挑战。现有的短文本主题模型往往无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中的稀疏性问题。并且,模型主要针对固定的短文本语料进行建模,属于离线式模型,无法很好地处理实际场景中实时更新的短文本流。此外,现有的短文本主题模型往往基于单机训练,而短文本由于生成成本相对较低、用户参与度较高,数据规模通常很大,导致模型的训练过程性能较低。因此,针对以上问题,本文研究提出一种基于词性特征与语义增强的短文本主题模型,包括离线和在线两种模式,同时基于Spark分布式平台研究实现了大规模场景下短文本主题模型的并行化训练算法,并将研究成果应用于江苏省市民热线服务平台的实际系统中。本文的主要研究工作和贡献点包括:(1)针对固定的短文本语料,研究提出一种基于词性特征与语义增强的离线式短文本主题模型PFE-DMM。该模型通过自定义词性特征,能有效地刻画主题的不同方面。同时,该模型通过对特定词性特征的单词进行语义增强,能有针对性地缓解短文本中的稀疏性问题。(2)针对实时更新的短文本流,在离线式PFE-DMM的基础上研究提出一种在线式短文本主题模型OPFE-DMM。该模型将带有时间信息的短文本流按照预定义大小的时间片进行划分,并通过历史贡献因子捕获不同时间片之间的主题连贯性,使得模型具备追踪主题演化趋势的能力。(3)针对本文提出的模型,基于Spark分布式平台研究实现大规模场景下的并行化训练算法,并通过对算法进一步优化,以保持模型精度和减少训练时间。(4)以江苏省某市民热线服务平台的真实需求为应用场景,基于以上提出的关键技术方法,设计并实现了一个文本大数据分析系统,能够对离线和在线的短文本进行高效地分析,验证了本文提出的短文本主题模型的有效性。