【摘 要】
:
为了将互联网中纷繁复杂的信息快捷准确地呈现在用户面前,各种信息获取系统大量出现。信息获取是从网页中获得知识的手段,通常包括信息网页获取,信息抽取,信息去重等步骤。信
论文部分内容阅读
为了将互联网中纷繁复杂的信息快捷准确地呈现在用户面前,各种信息获取系统大量出现。信息获取是从网页中获得知识的手段,通常包括信息网页获取,信息抽取,信息去重等步骤。信息抽取在获取的信息网页上进行,信息网页获取力求快速获得系统关注的页面,高质量的信息网页,有助于提高信息抽取的质量。一般信息抽取之后还要对信息进行冗余判断及合并,信息的冗余意味着所在网页之间存在冗余,以往的研究并没有考虑到利用这方而冗余来对网页获取进行优化,可以在冗余的网页中,选择部分高质量页面,获取页面并抽取内容,提高信息抽取的效率和效果。本文首先介绍一种快速信息网页获取方法。该方法建立于一个普适的信息网页获取系统中,对初步抽取的信息进行冗余去重,找出抽取信息间的冗余关系;再利用对信息网页的URL模式归纳和精选,选择部分URL模式来构造信息网页下载的导航器。之后,系统将根据下载导航器来获取信息网页,使在能保证抽取信息数目的前提下,减少系统在信息网页获取一步上的开销。由于快速信息网页获取依赖一个信息去重过程,所以本文接着介绍多元信息冗余去重的方法。对于多元信息,本文将各信息元素分为四个大类,计算每个信息元素的相似度,并以此作为特征,利用二类分类器对两两信息间是否冗余进行判断。此外,本文在比较难以处理的命名实体信息上,使用一个自动扩充同义词对的方法,能明显提高多元信息冗余去重的效果。实验方面,快速网页获取方法将和普通的下载进行比较,主要对比其下载量,信息抽取量,该方法的时间适用性等等,从结果能看出快速网页获取在保证信息量的前提下能大幅减少下载开销。多元信息去重的实验在两个数据集上进行,验证了去重效果和命名实体词对自动扩展的效果。
其他文献
互联网的快速发展,加快了新闻的发布速度,也使得互联网成为聚集新闻信息最多、最全的地方,每日剧增的新闻信息更凸显出快速查找感兴趣内容的重要性,为了满足人们方便浏览新闻
现有的车载网络安全研究,在保密数据共享上,一般会采用群加密的方式来进行信息传输。但是群加密的方式应用在车载网络上有很大的限制。一方面由于车载网络的高度动态性,群组
随着互联网和计算机技术的高速发展,Web服务技术也得到了快速的发展和应用,这使得Web服务的数量与日俱增,提供的功能也越来越丰富。然而单个原子服务提供的功能毕竟有限,而用
人脸检测是指在任何人脸识别系统中从输入信息(图像)中确定所有存在的人脸的位置、大小和姿态的过程,它是自动人脸识别系统中的一个关键环节。随着计算机科学在人机交互领域的
推荐系统已经成为大数据时代最重要的信息过滤工具之一,它可以帮助用户从海量数据中迅速定位有价值的信息,并以用户可能感兴趣的物品列表的方式推荐给用户。互联网爆炸式的信
火灾自动无线报警系统在现代社会安全领域的建设方面起着非常重要的作用,随着无线物联网技术的进一步发展。火灾预防将是无线物联网技术的一个重要的应用方面。传感器的应用
微电子技术和计算机技术的迅猛发展促使人们对无线通信提出了更高的业务要求。为了满足可视电话、手机电视、高速数据、高精度定位等高速多媒体业务的要求,未来无线通信系统
随着互联网技术的发展和人们对于电子支付需求的不断增加,移动支付受到越来越多的关注。因其不受空间限制、方便快捷、随时随地开展交易等诸多优点,移动支付发展迅猛并且正在
随着计算机网络技术、多媒体技术及视频检索技术的飞速发展,多媒体信息数据在社会生活中的应用也变得越来越广泛,尤其是视频信息数据的处理。重大危险源的监控视频信息的完整性
随着互联网技术的飞速发展,在网络上制作、拷贝、传播和发布多媒体数字作品变得更加的容易,信息隐藏技术为日益严峻的多媒体信息安全和知识产权保护提供了一个十分有效且非常