博客热点实时发现与跟踪

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sam_rao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题发现与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过博客实时发现并跟踪国内外热点事件,以实时地反馈给用户。由于传统文本聚类算法很少专门面向主题进行聚类,因而不能很好解决热点事件发现与跟踪问题,使得热点事件发现与跟踪大多数都仅限于研究阶段,难以具有实用价值。本文针对博客热点实时发现与跟踪这一任务提出了一种准确高效的新算法。该算法主要包括三个步骤:首先,我们提出了一种新的相似度计算方法,以根据所有文章的标题的关键词聚类,这既能提高算法的实时性,又能充分突出博客文章标题的重要价值。其次,对于第一步中产生的所有标题簇,我们识别出那些含有热点主题的标题簇以对它做进一步的事件挖掘,并将该标题簇中与该主题无关的文章给删除掉。如果一个标题簇中没有任何事件占主导地位,我们可以识别并删除它。最后,针对事件模板中的噪音,在删除某个标题簇中所有与主题事件不相关的文章后,更新事件模板,并用这个干净的事件模板去数据集中挖掘所有与该事件主题相关的文章或追踪该事件。为了对本文的算法进行评测,我们根据新浪专题事件构造了两种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客的1589篇网页,包含40个事件。实验表明,本算法针对数据集一的召回率和精度分别为87.73%和95.04%,针对数据集二的召回率和精度分别为82.37%和92.18%。通过与传统聚类算法的实验对比显示,本文的方法大大优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点实时发现与跟踪的系统并提供了热点事件的自动编辑、整理与推荐功能,该系统目前已经持续运行了近120天,收集整理了超过1000个热点事件及相关的文章7万多篇,通过对人工进行相关性标注的648个事件的近两万篇文章的统计结果表明,该系统的精度达到了84%,从而为将来替代人工编辑,节省人力资源并保持热点事件的及时、全面、准确报道打下了坚实基础。
其他文献
自然语言中共指现象非常普遍。一个真实世界中的实体在自然语言中出现的时候,往往会有多种多样的表达。虽然人们可以毫无困难的区分文章中同一实体的不同体现,但对计算机而言仍
随着XML相关标准的推广与应用,Web上出现了大量的XML文档。为了有效的管理,有必要将XML文档存储到数据库中。存储方案己成为XML数据管理领域研究的一个重要课题。NativeXML数
电子邮件由于其操作便捷、传递迅速等特点,成为了互联网用户之间重要的交流手段。正由于其传递信息的便捷性,互联网上充斥着大量的垃圾邮件。这些垃圾邮件中往往含有恶意的UR
随着嵌入式技术的不断发展,现代通讯技术的日趋成熟和完善,使得人们可以使用具备高级商务应用功能的智能移动计算设备,且这些移动设备以令人惊奇的速度得到商业化推广,如世界
手写签名鉴别是一种新兴的基于生物特征的身份识别技术,与传统的身份识别方式相比,手写签名识别可以提供一种更为安全、可靠、便捷的身份识别新途径。一个完整的离线签名鉴别
无线射频识别(RFID)技术是一种对象自动识别技术,在供应链管理,访问控制,动物追踪等领域中已经得到广泛的应用。和其它的RFID技术的重要应用相比,供应链管理由于批量处理大量
ZigBee技术是一种新兴的短距离、低速率无线网络技术,主要用于近距离无线连接。ZigBee技术与其他几种无线通讯技术相比,突出特点是:功耗低、组网能力强、传输距离远、可靠性
随着计算机和网络技术的发展,电子文件的安全问题日益突出。根据传统的信息安全观点,约80%信息泄漏来自内部,为了解决内部人员的泄密问题,必须依托电子文件保密技术完善电子
LOD(Level–of–detail)模型表示法是一种有效的三维实体表达方式。其在计算机图形学、虚拟现实、地理信息系统、医学图像系统等领域有广泛的应用。现今在这些领域所构造和使
灰色系统理论以“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定性系统为研究对象,主要通过对“部分”己知信息的生成和开发提取有价值的信息,实现对系统运行