基于归纳规则的从半结构化数据中进行信息抽取的方法的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xiaoxiaoshixisheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来随着互联网的飞速发展,网络上存在着大量的有用的信息,各种各样的网络应用程序应运而生以解决网络上信息的采集和挖掘工作,而其中信息抽取任务是很多应用能够进行的基础,具有相当重要的地位,尤其是从半结构化的数据中抽取出满足用户需要的数据.半结构化的信息抽取是一个相对较年轻的领域,其有效性和表达性是衡量抽取效率的两个主要标准;有效性即抽取的效率,表达性即抽取能力的广泛性.目前的各类系统在解决抽取问题时很少同时考虑这两方面,大部分是考虑了有效性忽略了表达性,或者考虑了表达性而忽略了有效性.传统具有良好表达性的系统在采用机器学习方法时,运用自上而下的方法,从一般到特殊,往往具有很大的搜索空间,同时需要大量的训练实例,降低了其有效性.而具有较高有效性的系统很多的利用了HTML页面的结构信息,在处理大量较结构化的页面时比较有效,而在处理结构有所变化的页面时常常不能完成正确的抽取.该文提出了一种CWIWSK方法,兼顾两者的优点,采用机器学习的方法,采用自下而上的方法,从特殊到一般,需要较少量的训练实例,同时采用分离符的概念,通过把分离符的HTML整体标记做变化来完成信息抽取的任务,通过这种方法在减少了系统的搜索空间的同时,不影响系统的表达能力.因此CWIWSK的目的是试图在考虑有效性的同时考虑表达性,以使在有效性和表达性之间能够达到一个较好的平衡,能较好的完成信息抽取的任务.
其他文献
知识获取是一个与领域专家、专家系统建造者以及专家系统本身都密切相关的复杂问题,由于各方面的原因,至今仍然是一件相当困难的工作,被认为是专家系统建造中的一个“瓶颈”问题
在蓝牙测试实践一章中作者对自己从事的蓝牙测试工作进行了总结,着重阐述了蓝牙协议BB、L2CAP、GAP、SDP的一致性测试结构、测试结构中测试点的设置、测试案例所测试的功能、
该文通过对VR的理论研究,建立了以智能推理技术为基础的VR模型,并选择了专家系统实现模型中的智能推理技术.论文详细分析了VR中知识的类型、表示及获取,在此基础上建立了VR的
随着互联网的出现,产生了许多新的电信应用,多媒体通信也有了较大的发展,电信网、计算机网与电视网之间的三网融合也早已克服技术上的问题,而这3者之间的业务也随之互相渗透,随之
该文作者借鉴了许多国内外专家学者的理论和研究成果,从人类理解语言的根本出发,重视概念知识在文本分析过程中的作用,提出了一种基于特定领域的知识表示模型和文本分析方法.
连续属性的离散化是数据挖掘理论中重要的研究内容之一,有监督离散化没有考虑属性之间的相容性,对最终的效果造成一定的偏差,无监督离散化对分布不均匀以及含有噪声的数据集
本文提出了基于CORBA(公共对象请求代理体系结构)的分布式智能网(IN)体系结构,完成了呼叫控制层的设计,给出了该体系结构实现智能业务的流程。本文还完成了这种分布式智能网的
随着当今社会信息化程度的不断提高,多媒体技术已经成为当前科研和应用的一大热点,其中图像压缩技术则是多媒体领域的核心技术之一。由于当前对数字图像精度和清晰度的获得越来
VPN是Internet技术发展与商业需求共同促进的产物,用于在不安全的公用网络上建立虚拟的安全的专用网络。VPN是一种网络服务方式,并没有规定具体实现的方式。通常的实施方案是
论文在混合型防火墙基础上重点进行了安全扫描器的研究与开发,并结合VPN技术和入侵检测技术,旨在构建具有主动防范能力的防火墙系统,并从提高性能出发,进一步将考虑将该系统