基于词性特征与语义增强的短文本主题模型研究与应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:aiyi23_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本媒体逐渐成为人们日常生活中一种重要的信息来源,从短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要。与传统的新闻报道和科技文献等长文本相比,短文本通常具备内容简短随意、实时性强和数据量大等特点,这无疑给基于短文本的主题分析任务带来了巨大的挑战。现有的短文本主题模型往往无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中的稀疏性问题。并且,模型主要针对固定的短文本语料进行建模,属于离线式模型,无法很好地处理实际场景中实时更新的短文本流。此外,现有的短文本主题模型往往基于单机训练,而短文本由于生成成本相对较低、用户参与度较高,数据规模通常很大,导致模型的训练过程性能较低。因此,针对以上问题,本文研究提出一种基于词性特征与语义增强的短文本主题模型,包括离线和在线两种模式,同时基于Spark分布式平台研究实现了大规模场景下短文本主题模型的并行化训练算法,并将研究成果应用于江苏省市民热线服务平台的实际系统中。本文的主要研究工作和贡献点包括:(1)针对固定的短文本语料,研究提出一种基于词性特征与语义增强的离线式短文本主题模型PFE-DMM。该模型通过自定义词性特征,能有效地刻画主题的不同方面。同时,该模型通过对特定词性特征的单词进行语义增强,能有针对性地缓解短文本中的稀疏性问题。(2)针对实时更新的短文本流,在离线式PFE-DMM的基础上研究提出一种在线式短文本主题模型OPFE-DMM。该模型将带有时间信息的短文本流按照预定义大小的时间片进行划分,并通过历史贡献因子捕获不同时间片之间的主题连贯性,使得模型具备追踪主题演化趋势的能力。(3)针对本文提出的模型,基于Spark分布式平台研究实现大规模场景下的并行化训练算法,并通过对算法进一步优化,以保持模型精度和减少训练时间。(4)以江苏省某市民热线服务平台的真实需求为应用场景,基于以上提出的关键技术方法,设计并实现了一个文本大数据分析系统,能够对离线和在线的短文本进行高效地分析,验证了本文提出的短文本主题模型的有效性。
其他文献
读李凤群的《大野》,脑海中陆续想起福楼拜的《包法利夫人》、托尔斯泰的《安娜·卡列尼娜》、萧红的《生死场》、王安忆的《富萍》、毕飞宇的《玉米》《青衣》、盛可以的《北
报纸
激光二极管泵浦的固体激光器(DPL或DPSSL)是用激光二极管(DPL)代替闪光灯泵浦激光晶体的固体激光器,与灯泵浦相比,具有效率高、体积小、结构紧凑、性能稳定、寿命长等优点,已成为当
本论文通过温度循环(-40~125℃)使两组PBGA器件(充胶/未充胶)加速失效,利用金相检测、染色剂渗透、扫描电镜观察、C模式超声扫描以及有限元分析等手段研究器件的热循环可靠性问题。
人格发展的影响因素包括内在和外在因素。从外在因素来看,儿童的健康人格发展离不开健康的社会环境。社会舆论、社会风气、社会价值取向等在很大程度上直接影响着儿童人格的
在一二年生草花风光无限的今天,宿根花卉虽优势多多,却略显寂寥。一二年生草花打的是“洋”牌,宿根花卉要想成功则应打“土”牌。本土的花草历经漫长的磨合,已经与当地环境水
聚酯是纺织的主导原料,其废旧品存量超过1亿吨,但再生利用率不足10%,难以自然降解,资源环境影响大。探索废旧聚酯纤维制品的循环再生技术,可以有效缓解石油、耕地资源紧张的
全固化飞秒激光器是超短脉冲激光器中一个新颖的研究方向,它体积小、成本低、波长多样化,是未来超短脉冲激光器发展的必然趋势,本文对全固化Yb:YAG锁模激光器进行了理论和实验研究,论文
视唱练耳作为现代音乐基础学科,音乐的创作、表演、处理以及教学都离不开视唱练耳这门学科。运用视唱练耳的知识,更有助于寻找音乐的灵感,把握住整体音乐的走向。本文分为三
随着综合业务数据网(ISDN)的发展,大容量、多元化的通信传输对光通信系统提出了越来越高的要求,使用一根光纤传输多个频率光信号的光波分复用技术广受关注。而光波分复用器是光
2009年11月3日,周口市第三次全国文物普查队会同郸城县文物普查队在段寨遗址进行实地调查时,在该遗址西北部地表采集到一枚大汶口文化晚期带有原始刻画符号的陶片,这在豫东地