论文部分内容阅读
随着网络信息的快速增长,搜索引擎的作用越发的重要。而为了进一步处理和挖掘网络日渐增长的庞大信息,搜索引擎本身也相应地要寻求某些除了简单的网页文本以外的载体。网络表格搜索引擎系统就是利用计算机对网页上的表格按照一定的规则进行提取、分析、存储、检索的搜索引擎系统,其目的是为网络信息检索提供一种新的载体。表格作为一种新式载体,具有普遍性、易读性和结构化的三大特点,非常适合用来作为搜索的元素来反映整个网络世界的结构和内容,并且易于为计算机分析和处理。网络表格搜索引擎系统作为一种搜索引擎系统,也具有搜索引擎系统基本的数据处理流程和处理方法。但是与普通网页文本搜索引擎不同的是,其基础技术还包括表格甄选、表头甄别、表格排序三部分。每个部分都需要特别针对表格这种新载体的特点,设计特殊的处理过程和算法。本研究针对这一问题进行了研究与实践,主要包括以下几方面的工作:1、表格甄选。该方面实现了从结构方面实现对网页中的有数据意义的表格的甄选过程的算法,并把这种算法与从内容方面的识别的算法进行了比较。2、表头甄别。该方面实现了快速有效地甄别表格中是否存在表头以及找到表头的算法。该算法提出了从结构、内容、样式等诸多方面对表格的行或列进行考量,并且通过结合机器学习算法提高准确性。3、表格排序。该方面提出了TableRank算法来实现了类似于PageRank算法的、适用于表格的查询词无关算法,为缺少超链接的实体的排序提供了一些新的思路。4、构建成网络表格搜索引擎,根据运行情况,对三个阶段的系统结果进行了统计和分析,评价了本文所设计的算法的效果。系统运行的结果可以有效地帮助用户更快更好地找到所需表格,从而进一步了解该网页乃至整个网络世界。通过该系统的构建及相应算法的设计,探索了表格搜索的一些特殊性,为相关的研究和工具开发做了有意义的探索。