基于树形结构的Web信息抽取

来源 :福建师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:meimei5211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.
其他文献
无线传感器网络采用多跳、多对一的数据传输方式,使得网络能量消耗不平衡。基站附近结点通信负荷过重成为“热点”,“热点”区域的结点往往最先死亡导致网络失效,此时其余结点仍
中学语文教学用什么标准衡量教学质量,衡量高效教学,怎样提高质量,实现高效教学,需要研究并找到切实可行的操作程序、策略和一整套的方法。文章从五程序单元教学模式建构理论
为了对在险值的估计精度进行度量,更为精确和有效地衡量极值VaR(value at risk)的估计风险,基于广义极值理论构建了极值VaR的区间估计模型,并进一步利用高频数据重点考察了不同
产学研合作教育是一种教育思想,也是一种教育模式.认为产学研合作教育适应人才培养的要求,为创新人才培养提供了良好环境,有利于人才创新能力的培养.提出要建立有利于创新人
简要论述了学习策略的一般功能和学习策略的界定,结合大学英语教学的实际情况,探讨了学习策略在课堂教学中的应用的重要性及应注意的相关问题,认为学习策略可以提高大学英语学习
1我国石材工业发展现状1.1发展势头强劲我国石材资源丰富,花色品种多.改革开放20年,我国石材工业年产值以超过年20%的速度增长,1997年全国石材产、量达到1.6亿平方米,跃居世
期刊