论文部分内容阅读
利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注。然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系。从生成模型的角度建模文本之间的联系,基于LDA设计了一个新的主题模型Db LDA(LDA over text database)。Db LDA针对文本数据库的特定划分(例如时间、地点)建模,充分利用每个子集中的共性,提高了模型的表达能力。由于Db LDA模