【摘 要】
:
当前web是人们获取信息的主要渠道之一,然而,用于表达Web信息的Html语言存在着与生俱来的缺点,其“标记”只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义。作为深
论文部分内容阅读
当前web是人们获取信息的主要渠道之一,然而,用于表达Web信息的Html语言存在着与生俱来的缺点,其“标记”只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义。作为深层数据挖掘的先驱,信息抽取技术可通过对网页信息的浅层分析,快速准确地从海量信息源中提取用户感兴趣的信息。目前大多数信息抽取系统都采用基于归纳学习的规则进行抽取的,存在着扩展性的瓶颈问题。本文以汽车行业为背景,分别对半结构化及自由文本的抽取规则进行了研究。对前者,以文档对象模型DOM为基础,把目标信息在DOM层次中的路径作为信息抽取的坐标,并以此基本原理,设计了基于解释学习算法的半自动提取规则。对于自由文本,提出了一种多槽规则自动获取技术,在生成规则时无须传统的语法语义分析和复杂命名实体识别过程,大大降低了对资源的要求。实验结果表明,相对于归纳学习和演绎学习,该规则具有更高的准确率和召回率。
其他文献
数据访问功能是应用程序最基本的功能,随着技术的不断发展,形形色色的数据访问技术被提出,并在各种各样的应用程序中发挥着越来越巨大的作用。然而数据访问技术越发展,其种类就越
嵌入式系统中的能耗问题是与嵌入式设备的便捷相应而生的,由于嵌入式应用的不断丰富,系统能耗快速增长,但目前作为唯一电源的电池技术进展赶不上能耗的增加。由此造成嵌入式系统
蜂群算法是模拟蜂群觅食、选择蜂巢位置以及蜂群婚配行为的群智能优化算法,具备参数设置少、操作简单、易于实现及鲁棒性很强等诸多特点,应用于求解各种组合优化和连续优化问题
网格将高速互联网、计算机、大型数据库、传感器、远程设备等融为一体,集成为一台能力巨大的超级计算机,提供计算资源、存储资源、数据资源、信息资源、知识资源、专家资源、设
随着人们对iOS系统认识的不断深入,面向该系统的软件开发也日渐普及。本文针对该平台在推广应用过程中出现的跨平台数据库访问问题,从不同数据库平台的实现角度出发,分析了传
Zigbee是一种新兴的无线监控协议,用于实现一个传感器网络,其技术正逐步成熟。一个Zigbee监控系统由Zigbee传感器、Zigbee数传平台和监控软件三部分组成。Zigbee数传平台负责用
近年来,随着多媒体技术的发展,视频在人们的生活中扮演着越来越重要的角色。人们对于视频的质量有了越来越高的要求,视频的数据量因此变的越来越大,给视频网络带宽和存储介质带来
伴随着计算机硬件的飞速发展,数据库的联机事务处理(OLTP)性能在不断的提高。但是由于计算机应用技术在日常生活和工商业中的应用越来越广泛,人们对数据库的OLTP能力也有了更高
电子商务的优势使越来越多的交易在网上进行。智能Agent技术引入到电子商务中使网上交易的各个阶段实现自动化、智能化成为可能。谈判作为交易过程中的一个重要环节,是买卖双
Bloom Filter采用一个位向量表示数据集合并且利用Hash函数有效支持查找。它能很好的解决一个问题:判定某个元素是否属于给定集合。在分布式应用环境中,Bloom Filter 在资源定