【摘 要】
:
目前大多数搜索引擎仅仅搜索超链接可以搜索到的静态网页,而许多的重要数据存放在web的后台数据库中,它们需要通过表单查询的方式获取,相应的网页称为隐藏网页。为了帮助用户
论文部分内容阅读
目前大多数搜索引擎仅仅搜索超链接可以搜索到的静态网页,而许多的重要数据存放在web的后台数据库中,它们需要通过表单查询的方式获取,相应的网页称为隐藏网页。为了帮助用户获取更多的信息,本文讨论隐藏页面的搜索方法,给出了系统架构,并讨论其中的关键技术。本文首先分析了当前普遍采用的互联网信息搜索引擎的优缺点,比较通用搜索与深度搜索的不同,提出了适合深度搜索的爬行策略,即利用链接分类、文本分类进行聚焦爬行。并通过设置同一站点内停止搜索标准条件,对规则网站设置路径学习,尽量找到含有表单的网页。本文通过模拟用户访问深度网页的过程,开展了如下工作:首先,通过调查研究,提出适合能快速有效地下载含有表单的网页的爬行策略;然后处理网页,抽取出表单信息,将网页表单信息转换成程序可以理解的形式,即对表单进行建模。其次,利用启发式规则和表单分类方法提取有用的表单。再次,对表单标签和语义词进行提取,自动填写提交,找到需要网页。本文充分利用表单的结构和文本信息,其中的分类器使用标签分类和表单周围有用文字分类比较的办法。用Centroid、KNN、SVM算法进行训练。实验表明,表单周围文本分类效果好,用SVM算法效果最佳。最后,对表单自动填写的Name value table进行了一些讨论。通过实验验证了表单分类和表单信息抽取的有效性。
其他文献
为了全面准确了解全镇畜牧业发展现状,深入分析全镇畜牧业发展出现的新情况、新问题,更准确地为党和政府发展畜牧事业做好参谋,结合党的群众路线教育实践活动,马营镇畜牧兽医站于
三维激光切割技术广泛应用于新车型开发时的样车制造以及车身零部件的小批量生产,可以取代传统制造工艺中的冲孔模和修边模,不仅减少了模具的数量,节省模具的设计和制造费用,
通过总结连建伟名老中医的临证经验,从脉证入手分析郁证的病因病机,并从其大量医案中整理出郁证治法及主要方药运用经验.
目的观察和中健脾方对混合反流性食管炎模型大鼠食管黏膜损伤的保护作用及对介导炎性反应的核转录因子-кB(NF-кB)信号通路的影响。方法 60只健康SPF级SD雄性大鼠采用随机数
据调查,城乡结合部中小学教师的语言素质状况参差不齐,不容乐观。教育行政部门及学校必须加大宣传力度,完善管理、监督机制,加强培训工作,使教师的语言素质状况得到有效的改
前言WNK4(with no lysine[K]kinase-4)基因是新近分离克隆的一个蛋白激酶基因,该基因第7外显子(exon7)和第17外显子(exon17)突变可导致常染色体显性遗传性疾病,假性低醛固酮
随着知识经济时代的到来,现代企业中所面临的首要问题不再是资金、技术等问题,而是人的问题,人是企业生产中最重要的要素。薪酬作为影响人的价值发挥与创造的重要手段,不仅是
研究背景:失重或模拟失重条件下,人或大鼠的骨骼肌会出现明显的废用性肌萎缩。中医学认为,脾司运化、主肌肉,为气血生化之源;若脾虚失运,则脏腑、肌肉无以充养,故肌肉萎缩应
本文以新媒体传播平台为切入点,选择在中国历史上有着较为特殊意义的满族文化为研究对象,来思考少数民族文化新媒体传播平台的创新发展。通过对已有的满族文化新媒体传播平台