【摘 要】
:
网页浏览和搜索引擎的关键字检索是人们从Internet上获取信息的传统方法,其局限性主要表现在:网页浏览方式很难在Internet上定位特定的知识;而搜索引擎却很容易将所需知识淹
论文部分内容阅读
网页浏览和搜索引擎的关键字检索是人们从Internet上获取信息的传统方法,其局限性主要表现在:网页浏览方式很难在Internet上定位特定的知识;而搜索引擎却很容易将所需知识淹没在大量的无关网页中。目前出现了一些全新的基于Web的应用,例如监控股票市场的及时行情,比较各个站点的商品价格等等。仅凭搜索引擎和Web查询技术无法满足这些新兴的需求。与信息检索技术不同的是,数据抽取技术更侧重于从web文档集合中发现相关文档,并从中抽出用户关心的数据,即将HTML等半结构化的数据转换成为结构化的数据。大量的网上数据信息被保存在网站的后台数据库中,Web数据库依据用户的特殊的查询要求或条件动态的生成Web页面,即查询相关的Web。Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。本文从分析Web文档与DOM树的对应关系入手,提出了一种基于子树匹配的交互式抽取方法,XHTML对应的DOM树是该方法的Web数据结构化和分析抽取的基础。方法依据Web数据记录和DOM子树的一一对应关系,通过分析一条或几条数据记录的代码结构,实现对全部类似数据记录的发现和抽出。方法通过与用户交互的方式生成数据抽取规则,并将多序列比对算法引入到抽取规则生成过程;将子树的划分引入到数据抽取过程中,结合TOP-DOWN树匹配算法,实现对DOM树中的数据记录的发现和抽出。应用基于组件的模式对原型系统进行了实现,试验证明,基于子树匹配的交互式抽取方法在保证抽取高效率的同时,其抽取查全率和准确率都可以达到很高的水平。
其他文献
卫宝山,痛击日军rn上海吴淞口内有个半岛,三面环海,形如楔子,名叫宝山县,离上海市大约25公里.1937年“八一三”事变后,日军大举向上海宝山进攻.我军设防据守,离日军阵地只有3
1968年冬,长沙的冬天阴寒冷冽,街上的路人行色匆匆.rn那时候,我自诩为“逍遥派”,从不愿参与那些热火朝天的批斗活动,闲着无事便在学校里瞎逛逛.学校已经停课好一段时间了,校
中国证券市场作为一个新兴的证券市场,从2001年以来,市场环境发生了重大的变化。而市场环境的变化又导致在盈利模式、投资策略和操作理念等诸多方面发生了深刻的变化。投资者开始对价格操纵型的市场盈利模式进行反思,确定公司证券的内在价值成为一个最为重要的环节。 本文在借鉴西方投资大师经典投资理念的基础上,结合经典投资评价方法在中国的应用情况,对上市公司价值决定的相关内容进行切实可行的拓展,系统分析了
公元1167年,朱熹自闽赴湘,会张杭于岳麓书院,辩理析义,讲学两月,史称“朱张会讲”.潭州嘉会,终有一别,所别之地,乃为株洲.2016年,斯逢治世,河清海晏,国泰民安,时人于斯建分袂
摘 要:生态女性主义理论的出现使女权得到了更多重视,其影响是积极而长远的,在西方文学作品中,生态女性主义理论较为多见。基于此,本文以生态女性主义理论以及其发展历程为切入点,重点论述西方文学作品中各个阶段的生态女性主义理论。旨在通过分析明晰理论内容,加深对西方文化、社会发展的认识,更进一步为相关研究工作提供参考。 关键词:生态女性主义;西方文学作品;人文主义 作者简介:许谨(1981.1-),女
秦代以前就有“腊八节”了,到晋代已广泛流行,农历腊月初八成为祭天地、祭祖先、祭神农等的日子.裴秀《大腊》中的“日躔星记,大吕司晨.玄象改次,庶众更新.岁事告成,八腊报勤
云南的茶马古道早已名满天下.那曾经传遍山谷的驮马铃声,那青石上深深浅浅的印痕,似乎一直在向人们默默地诉说着苍凉的过往.而在湖南常宁的崇山峻岭间,也隐藏着一条可以与之
1906年荷花盛开的时节,谭氏家族有个叫谭润区的读书人家里添了一个男丁.谭家老少十分欢喜,给孩子取名世铭,别号举安.这孩子便是后来的谭政大将.谭家本是当地的大户人家,谭政
摘 要:赫爾曼·黑塞的小说《纳尔齐斯与歌尔德蒙》中讲述了主人公歌尔德蒙的自性化之路。自性化之路也是找寻自己之路,是找到肉体与精神和谐统一之路。黑塞给人类了一个成为自己的范本,探讨了人的内心需求。本文结合分析心理学分析歌尔德蒙如何通过努力最终找到自己。 关键词:自性化;黑塞;分析心理学 [中图分类号]:I106 [文献标识码]:A [文章编号]:1002-2139(2018)-05--01