论文部分内容阅读
在当今信息化社会,以新闻、微博、专利、产品评论等为代表的时间相关文本序列为人们的工作生活提供了重要的信息来源。文本时序信息指时间相关文本序列中随时间变化的信息,此类信息刻画了时间相关文本序列在时间维度上动态变化的过程,对于文档的建模与分析具有重要作用。本文针对时间相关文本序列中各类文本时序信息的特点,围绕话题突破点检测、文档连贯度建模、文本相似度计算以及文档重要性量化等关键技术展开研究,取得了具有一定理论意义和实用价值的成果。本文的研究内容包括:1.针对新闻话题动态演化的特点,提出了一种话题突破点检测算法。该方法通过对新闻报道序列中的主题强度波动进行建模,自动检测出一个新闻话题在其演化过程中发生重要转折的突破点,并基于突破点生成该话题的时间线摘要。实验结果表明,该方法可以有效检测出持续性新闻话题发展过程中的重要时间点并生成摘要,从而帮助用户快速地了解一个新闻话题的发展进程。2.针对新闻故事线间持续交互的特点,提出了一种文档连贯度建模方法。该方法综合时间连续性、实体关联度和主题一致性三个维度对新闻报道间的连贯程度进行分析,并进一步挖掘一个新闻话题下发生交互的故事线及其对应的新闻事件。实验结果表明,基于文档连贯度生成的新闻结构化摘要可以有效揭示出一个新闻话题下多条故事线间的交互关系与相互影响。3.针对新闻热点词汇随时间变化的特点,提出了一种新闻事件相关的文本相似度计算方法。该方法从新闻报道序列中抽取热点新闻事件的相关词汇,通过分析词汇随时间动态变化的显著程度计算长度不均衡的文本(例如“微博-新闻”)间的相似度。基于千万规模微博数据的实验结果表明,该方法相比传统的文本相似度计算方法可以更有效地从微博数据中在线挖掘热点新闻事件的用户评论。4.针对科学文献中技术发展趋势的特点,提出了一种文档重要性量化算法。该方法通过对专利文献中技术主题的活跃度建模,挖掘并筛选出一个领域下重要的技术主题及其发展趋势,并根据技术主题的活跃度趋势量化专利文档的创新性和影响力。实验结果表明,该方法可以有效发现一个领域下最具创新性和影响力的专利集合,从而帮助企业完成专利授权与投资等知识产权管理工作。