网络表格搜索引擎系统的构建与研究

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:tielian77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的快速增长,搜索引擎的作用越发的重要。而为了进一步处理和挖掘网络日渐增长的庞大信息,搜索引擎本身也相应地要寻求某些除了简单的网页文本以外的载体。网络表格搜索引擎系统就是利用计算机对网页上的表格按照一定的规则进行提取、分析、存储、检索的搜索引擎系统,其目的是为网络信息检索提供一种新的载体。表格作为一种新式载体,具有普遍性、易读性和结构化的三大特点,非常适合用来作为搜索的元素来反映整个网络世界的结构和内容,并且易于为计算机分析和处理。网络表格搜索引擎系统作为一种搜索引擎系统,也具有搜索引擎系统基本的数据处理流程和处理方法。但是与普通网页文本搜索引擎不同的是,其基础技术还包括表格甄选、表头甄别、表格排序三部分。每个部分都需要特别针对表格这种新载体的特点,设计特殊的处理过程和算法。本研究针对这一问题进行了研究与实践,主要包括以下几方面的工作:1、表格甄选。该方面实现了从结构方面实现对网页中的有数据意义的表格的甄选过程的算法,并把这种算法与从内容方面的识别的算法进行了比较。2、表头甄别。该方面实现了快速有效地甄别表格中是否存在表头以及找到表头的算法。该算法提出了从结构、内容、样式等诸多方面对表格的行或列进行考量,并且通过结合机器学习算法提高准确性。3、表格排序。该方面提出了TableRank算法来实现了类似于PageRank算法的、适用于表格的查询词无关算法,为缺少超链接的实体的排序提供了一些新的思路。4、构建成网络表格搜索引擎,根据运行情况,对三个阶段的系统结果进行了统计和分析,评价了本文所设计的算法的效果。系统运行的结果可以有效地帮助用户更快更好地找到所需表格,从而进一步了解该网页乃至整个网络世界。通过该系统的构建及相应算法的设计,探索了表格搜索的一些特殊性,为相关的研究和工具开发做了有意义的探索。
其他文献
由于目前经济的快速增长、企业竞争、服务意识的提高和互联网的迅速普及等因素,呼叫中心已成为客户服务及电话营销不可或缺的信息化平台。近年来,呼叫中心产业在呈现了飞跃性的
随着系统复杂度的不断提高、系统对硬件的依赖程度的增加以及客户对程序的安全性、可靠性等要求的提升,传统的离散建模工具已经越来越难以满足软件工程师对于系统建模的需求
随着计算机安全技术的发展,可执行文件的比较技术不断应用到软件版权保护、系统补丁分析、电脑病毒研究、计算机漏洞检测等领域中。由于软件的封闭源码特性导致源代码比对方
学位
面部表情在人与人之间的交流上有重要的作用,人脸表情相对文字、语音等媒介在表达人的情感、情绪方面具有更加直观、准确的优势。将自然人这种情感交互模式用于如虚拟远程教
基准剂量评估通过把实验获得的剂量——反应数据和数学模型拟合推导健康风险评估的起点,是一种统计学意义上的风险评估方法。首先研究了基准剂量计算的实验设计。目前进行剂