知识增强的新闻事件识别技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lxlgqm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和自媒体的发展,在线新闻的规模与传播范围得到了极大的扩展。面对海量的在线新闻文本,如何根据其描述的内容对其进行划分和聚集,以实现新闻事件识别,是一个值得研究的问题。这一技术不仅有利于各种组织机构及时、准确地发现新闻事件,而且是把握热点舆情、分析开源情报等自然语言处理任务的基础步骤。从技术层面看,部分现有的新闻事件识别算法仅考虑了语料的统计特征,却忽略了实体信息、同义词、一词多义等语义知识,增加了模型的过拟合风险,并降低了其可解释性。针对上述问题,本文研究了知识增强的新闻事件识别技术,利用知识库/知识图谱、预训练词向量等外部知识源提升现有方法的性能。该技术以知识增强的文本主题模型为核心,综合主题建模、文本聚类、相似事件识别与分离、跨聚类事件融合等步骤,实现海量文本中新闻事件的识别。基于服务化的系统设计思路,设计并实现了支持流式处理的新闻事件识别与分析系统,不仅实现了事件识别方法的工程化,还支持多种面向用户的事件分析功能。本文的主要工作与创新如下:(1)提出并实现了知识增强的文本主题模型针对传统的潜在狄利克雷分配模型(LDA)过度依赖语料统计特征的问题,提出词语级语义知识增强的主题模型TSE-LDA(Token-Level Semantic Enhanced LDA)。该模型以知识库/知识图谱为外部知识源,以实体链接为沟通知识源和训练语料的手段,在传统LDA模型中添加语义单元结构,为模型提供面向实体的同义词和一词多义信息。在此基础上,将Word2Vec预训练词向量融入TSE-LDA模型,得到融合预训练词向量的知识增强主题模型WVTSELDA(Pretrained Word Vectors and Token-Level Semantic Enhanced LDA)。预训练词向量不仅为模型提供了数量可观的潜在特征,也令其能够更好地利用词语间的关联关系。本文从主题内聚性和文本分类准确率两个指标入手,综合定性定量两种方式评估了模型的效果。实验结果显示,本文提出的模型在上述两个评价指标上的表现均较为优秀。(2)提出并实现了基于知识增强主题模型的新闻事件识别方法新闻事件的识别包括文档主题特征提取、单批次事件识别和全局事件识别三个主要流程。文档主题特征提取流程使用WVTSE-LDA模型进行文档主题建模。针对模型潜在主题数的设置问题,采用基于主题稳定性的潜在主题数设定方法,实现模型超参数的自适应选择。单批次事件识别通过对某一新闻文本集合进行聚类来识别可能的新闻事件。针对新闻文本的聚类问题,采用近邻传播聚类算法加以解决;针对某个文本聚类可能包含多个相似新闻事件的问题,提出基于时间和事件参与者特征的相似事件识别与分离方法,形成包含单个新闻事件的文本聚类。另外,两个批次的文本聚类可能反映同一个新闻事件。为解决这一问题,提出基于文本语义单元表示的跨聚类事件融合方法,实现全局层面的事件识别。定量评估结果显示,上述技术在测试数据集上取得了较为理想的效果,可以满足新闻事件识别的功能要求。(3)设计并实现了支持流式处理的新闻事件识别与分析系统为实现知识增强的文本主题模型和基于这一模型的新闻事件识别方法,设计并实现了支持流式处理的新闻事件识别与分析系统。通过Apache Flink框架,实现新闻数据的流式处理。基于新闻事件的识别方法,设计并实现了若干面向用户的新闻事件分析服务,提供事件走势分析、事件词云生成、热门观点获取等上层的事件分析功能。
其他文献
当下大量针对A.S.拜厄特布克奖获奖作品《占有:一部罗曼史》的文学研究关注的是文本中后现代的写作策略、非常规的历史叙述或边缘化的女性地位,对小说副标题(即“一部罗曼史”)的解读尚留有空间。事实上,《占有》将不同的罗曼史亚体裁编织在其文本机理之中,其之所以具有罗曼史的意义是在于对先前罗曼史写作形式的承继。本篇论文主要通过比较的方式,分析《占有》与中世纪传奇、乔吉特·黑尔的摄政时期罗曼史以及纳撒尼尔·
研究目的:探讨快动眼期睡眠行为障碍的认知障碍特点。研究方法:2015年至2020年在上海瑞金医院共招募了116人,包括经过多导睡眠图(Polysomnography,PSG)检查明确诊断为快动眼期睡眠行为障碍(rapid eye movement sleep behavior disorder,RBD)的患者51例,其中特发性快动眼期睡眠行为障碍(idio pathic rapid eye mov
铅铋快堆的中子经济性良好、热电转换效率高、功率密度高,具有良好的安全性能。堵流事故指的是冷却剂流道被堵块阻塞导致组件内流通面积减少,使得燃料组件内和冷却剂温度局部升高,进而对燃料组件的安全性和完整性产生重要影响。国内外对堵流事故的热工水力特性进行了大量的实验和数值模拟,但对于具有绕丝结构的燃料组件的堵流事故分析不多,堵流工况中堵块下游子通道中的热工水力特性更加复杂。在此背景下,本文采用流固耦合的方
目的探究大黄对医院获得性肺炎(HAP)患者免疫功能及预后的影响。方法选取2018年9月至2019年8月期间复旦大学附属闵行医院重症监护室收治的HAP患者共84例,随机分为大黄组、对照组各42例,所有患者按照HAP治疗指南给予标准治疗,大黄组在此基础上给予生大黄泡水灌肠,两组均连续治疗7天,治疗前后测定血清Ig G、Ig M、Ig A、Ig E含量,流式细胞仪测定CD4+T淋巴细胞、CD8+T淋巴细
水稻条斑病(Bacterial leaf streak,BLS)由稻黄单胞菌稻生致病变种Xanthomonas oryzae pv.oryzicola(Xoc)引起,是近几年在我国南方水稻种植区发生较严重的细菌性病害。目前,生产上缺乏有效的抗病品种,条斑病的防治主要以锌、铜制剂为主。化学药剂的大量使用容易造成环境污染和药害。为了挖掘土壤中有效的微生物资源,用于防治条斑病,本研究收集到了249份土样
医学超声成像因其成本低廉、安全可靠及实时无创等优点被广泛应用于肝脏组织的临床检测中。由肝损伤引起的肝纤维化是一种全球性的肝脏疾病,严重影响了人们的身体健康和生命安全。因此,及早地检测和干预肝纤维化具有重要的临床意义。散射体密度与肝纤维化进展有直接关系。现有的散射体密度定量超声肝纤维检测算法大都基于统计分布与参数分析,存在检测不准确和鲁棒性差的问题。因此本文提出了一种基于定量超声的统计分析与参数成像
边缘计算技术在数据隐私保护领域内有十分重要的应用。边缘计算可以通过将服务部署在边缘节点上的方式,对云中心等服务调用者隐藏原始数据,仅返回处理后的统计数据和结果数据,从而使数据中的敏感信息得到了保护。然而当任务涉及到多个边缘节点的上的原始任务数据时,任务便成为边缘计算场景下的多数据源任务。多数据源任务在执行过程中,异构性因素使得个别子任务执行时间过长,造成整个任务执行时间过长。任务卸载是解决上述问题
Al基非晶合金的比强度高、韧性好、耐蚀性优异,因此具有广阔的应用前景。然而目前Al基非晶合金棒状试样的最大直径仅能达到2.5 mm,极大限制了该类材料的工程应用。深刻认识制约Al基非晶合金玻璃形成能力的因素、寻找更好玻璃形成能力的Al基非晶合金就成为非晶合金领域极其重要的问题。为此,本文首先总结分析了现有Al基非晶合金的成分设计理论,在此基础上提出了一种新的预测Al基非晶合金最佳成分的方法;接着开
本文为中国作家陈苍《地下三尺》第一章节的中译英翻译及该翻译分析。笔者翻译特定文化项目时将异化和归化理论应用于实践并提出熟悉性原则,作为一种解决不均衡和找到两者之间平衡的方法。结合中国文化的“走出去”和翻译的全球化趋势,进行了翻译分析。希望通过上述方法的适应,中国文化能够在西方得到进一步的弘扬。
随着大数据、物联网等平台的兴起,人们对于信息存储分析的需求井喷式增长,研发低功耗、低成本、高密度、高速的存储器迫在眉睫。阻变存储器因具有器件结构简单,存储读取速度快,尺寸小,功耗低,可三维集成等优势,是新型存储器的代表之一。本论文采用Ta2O5基阻变存储器进行研究。在传统的导电机制中,人们更多的关注点在Ta/Ta2O5界面。Ta/Ta2O5界面处因电激励产生的氧空位是导电细丝的主要组成。但在本论文