基于分块的主题信息抽取研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:a83017396
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前公安信息网和刑侦网上含有大量的刑事案件信息,如果只通过人工的方式浏览、搜集、存储信息,很难做到对信息全面、快速的整理,不利于案件的及时侦破。为解决这个问题,本文通过分析公安信息网和刑侦网页的特点,提出主题下主题链接提取方法和网页信息抽取方法,并将提出的方法应用到大连市公安局网页信息抽取系统中。本文首先通过对目录型网页结构特点的研究,具有相同主题的链接大部分都放在同一个布局标签内或者其上下文内。根据目录型网页的特征以及网络蜘蛛技术提出一种基于语义块的主题链接提取算法,此算法可以确定主题相关链接块并将主题块中的链接提取出来。通过实验表明此算法可以减少与主题无关的链接被提取。在主题信息抽取阶段,网页通常由若干个内容块构成,这些内容块通常是由HTML容器标签分割而成的,进行网页布局的标签有<table>和<div>。通过对多数网页的网页正文标题和网页正文的布局的观察与分析,得出网页正文标题与网页正文标题之间的布局可以分为三种情况,但不管网页正文标题与网页正文的布局如何,主题内容都被包含在最多两对布局标签内。基于对网页正文标题和网页正文之间布局的分析,本文通过网页标题和指向该网页的主题链接的链接锚文本来定位网页主题内容块,定位主题内容块以后,对主题内容块构造布局标签树,利用判别规则对标签树进行剪枝,利用正则表达式清除主题内容块中的HTML标记与其它无关文字,完成网页主题信息的抽取。实验表明,利用此方法来进行网页信息抽取能取得良好的抽取效果,由于抽取过程中只对主题内容块进行处理,减少了工作量。本文将主题下主题相关链接的提取方法与主题信息抽取方法应用到大连市公安局刑侦网页信息抽取系统,这个系统的应用提高了刑侦人员获取重要案件信息的速度和准确性,提高了案件侦破的效率。
其他文献
煤炭销售票的使用和管理在手工作业基础上已逐步形成完整的管理体系,为进一步加强煤炭销售票的管理奠定了基础。然而,随着计算机和通信技术的迅速发展,票务电子化、网络化将
随着电子技术、计算机技术和通信技术的发展,监控系统有着越来越广泛的应用,为用户提供便捷的监控方式。近年来网络技术的广泛应用,特别是无线移动网络的发展,为组建大规模的
现如今,大家对计算机和互联网已经不再陌生,不同的领域、不同的行业都要涉足互联网。人们在网络上实时的分享信息、共享资源,带来了前所未有的盛况。然而,随着越来越多的信息
云计算为用户提供了一个可靠的、按需的可配置的计算资源共享池。在云环境下,用户可以随时从任何地方访问计算资源及其相关数据。云计算主要有三种提供服务的方式:分别是软件
彩色图像边缘检测是彩色图像处理中的重要研究课题。边缘是彩色图像最基本的特征。而且边缘在边缘检测、图像分割、模式识别、机器视觉等中有很重要的作用。   彩色图像边