时间相关文本序列挖掘的关键技术研究

被引量 : 0次 | 上传用户:stadpole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息化社会,以新闻、微博、专利、产品评论等为代表的时间相关文本序列为人们的工作生活提供了重要的信息来源。文本时序信息指时间相关文本序列中随时间变化的信息,此类信息刻画了时间相关文本序列在时间维度上动态变化的过程,对于文档的建模与分析具有重要作用。本文针对时间相关文本序列中各类文本时序信息的特点,围绕话题突破点检测、文档连贯度建模、文本相似度计算以及文档重要性量化等关键技术展开研究,取得了具有一定理论意义和实用价值的成果。本文的研究内容包括:1.针对新闻话题动态演化的特点,提出了一种话题突破点检测算法。该方法通过对新闻报道序列中的主题强度波动进行建模,自动检测出一个新闻话题在其演化过程中发生重要转折的突破点,并基于突破点生成该话题的时间线摘要。实验结果表明,该方法可以有效检测出持续性新闻话题发展过程中的重要时间点并生成摘要,从而帮助用户快速地了解一个新闻话题的发展进程。2.针对新闻故事线间持续交互的特点,提出了一种文档连贯度建模方法。该方法综合时间连续性、实体关联度和主题一致性三个维度对新闻报道间的连贯程度进行分析,并进一步挖掘一个新闻话题下发生交互的故事线及其对应的新闻事件。实验结果表明,基于文档连贯度生成的新闻结构化摘要可以有效揭示出一个新闻话题下多条故事线间的交互关系与相互影响。3.针对新闻热点词汇随时间变化的特点,提出了一种新闻事件相关的文本相似度计算方法。该方法从新闻报道序列中抽取热点新闻事件的相关词汇,通过分析词汇随时间动态变化的显著程度计算长度不均衡的文本(例如“微博-新闻”)间的相似度。基于千万规模微博数据的实验结果表明,该方法相比传统的文本相似度计算方法可以更有效地从微博数据中在线挖掘热点新闻事件的用户评论。4.针对科学文献中技术发展趋势的特点,提出了一种文档重要性量化算法。该方法通过对专利文献中技术主题的活跃度建模,挖掘并筛选出一个领域下重要的技术主题及其发展趋势,并根据技术主题的活跃度趋势量化专利文档的创新性和影响力。实验结果表明,该方法可以有效发现一个领域下最具创新性和影响力的专利集合,从而帮助企业完成专利授权与投资等知识产权管理工作。
其他文献
水资源是基础性的自然资源和战略性的经济资源,随着人口增长和社会经济的发展,水资源已逐渐变的稀缺并成为经济增长的重要制约因素。农业是我国的基础产业,也是用水大户。近些年
介绍了在高碳当量条件下,利用含钛变质剂生产大断面高强度灰铸铁的经验。提出在4 .2 % ~4 .0 % CE; 0 .7~0 .8Si/C; 0 .9 % ~1 .2 % Mn ;0 .08 % ~0 .15 % Ti 的条件下,生产出大断面为80 m m ×120 m m ~100 m m ×210 m m 的铸件,σb 为244 ~328 MPa 。铸件断面组
法院文化是指融注在法官群体心底的法治意识、法治原则、法治精神及其价值追求,是法院机关的组织、制度、设施所具有的文化内涵,是法官群体在工作和日常生活中的行为方式,是
鸦胆子油是从苦木科植物鸦胆子(Brucea javanica (L.)Merr.)的干燥成熟果实中提取出来的脂肪油,具有清热解毒、截疟、止痢的功效。大量的临床验证发现鸦胆子油抗癌谱广,适用于多
企业薪酬管理,应该坚持公平的原则。只有坚持公平原则,才能实现企业的可持续发展,公平的薪酬管理方式对于企业的发展至关重要。本文主要分析了企业酬薪管理公平性对员工工作
铁合金连续成型技术经实验室的探索研究,找到了适合锰硅合金的连续铸造方法,为了使该项技术能够工业化,在广西八一铁合金集团有限公司兴建了一条年产12 500 t的连续铸造设备,
研究了固体硼氮共渗技术的渗剂、工艺参数、共渗后的组织与性能及其在模具上的应用。通过固体硼氮共渗使模具表面获得了可靠稳定的硼氮共渗层,渗层由硼化物层(Fe2B、FeB)和过
基于视觉传感器进行目标检测是计算机视觉领域的重要研究热点之一。传统的目标检测任务多在工作站进行离线分析,而随着计算技术的发展,越来越多的目标检测任务在移动平台上完成
本文主要运用SWOT战略分析工具,探讨行业报的战略定位及发展对策。通过研究发现,得益于计算机技术和通讯技术的日臻成熟,基于互联网和移动网络的新媒体蓬勃发展,对以报纸、电视为