【摘 要】
:
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于D
【基金项目】
:
2012年咸阳市科学技术研究发展计划项目(2012k03-05)
论文部分内容阅读
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。
其他文献
本文运用文献资料法、录像观察法、数理统计法等研究方法,对中国游泳代表队在2017年布达佩斯游泳世锦赛上所获得成绩进行分析。中国游泳代表队在本届游泳世锦赛上获得了奖牌
全运会在其历史发展过程中,承载了我国由体育大国向体育强国迈进的历史使命.本文对全运会发展过程中面临的困境进行理性审视,分析指出全运会发展的困境表现为三个方面.第一,
本文引入价值共同创造、行为金融学和SWOT分析等理论,运用逻辑分析和个案分析等方法,对体育众筹模式进行了探讨和研究。
飞机座舱温度异常事故模拟仿真问题,飞机座舱温度控制系统结构复杂,故障类型较多,为深入分析座舱温度控制系统故障机理,同时,为相关的适航条款的验证提供数据支撑.根据流体和
目的:探究专项体能训练对U12网球运动员灵敏素质的影响;方法:文献资料法、专家访谈法、实验法、数理统计法;结果:实验组前后测试的结果存在着非常显著性差异(P<0.01);对照组
本文运用文献资料法、逻辑分析法等研究方法,以文化的视角阐述了田径运动文化的三层次结构,指出田径运动文化具有完整性特征及其深层次的文化内涵,在田径运动文化传承过程中,
奥运会奖牌数目预测是体育研究中的一个十分重要的问题,获奖奖牌数目是一种波动剧烈、噪声高、复杂且难以预测的、非线性、不确定的时间序列数据,而支持向量机中的回归方法为
本文运用文献资料法、问卷调查法、访谈法、逻辑分析法和数理统计法,对大连市普通高校研究生体育锻炼现状进行了调查研究。结果显示,研究生的体育锻炼情况不容乐观,现状令人