垂直搜索引擎若干关键技术的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:sycloverock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结果上做到面面俱到,包罗万象的结果显然不能满足用户精确搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎应运而生。与通用搜索引擎不同,垂直搜索引擎的网络蜘蛛只采集Web中的部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行(Crawling)时避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和效率。本文提出了基于主题的自适应的分词技术,使用候选词典和专业词库来指导分词和歧义消除,能有效地提高专业领域中分词的查全率和查准率。本文还提出了基于父网页的主题相关度预测算法(CPAP)、基于链入网页的主题相关度预测算法(CPAH)和TPR主题预测算法。CPAP利用了锚文本和父网页的主题相关度等信息进行预测;CPAH在预测主题相关度时综合考虑了链接的数量和质量;TPR算法则将网页的主题相关性和权威性相结合,从而有效地防止了“主题漂流”现象。为了解决普通隧道技术随着探索半径的增大,主题无关网页呈指数级增加的问题,本文提出了稀疏隧道技术,稀疏隧道技术使专业网络蜘蛛在整个Web中拉网式地探索未知网页,从而实现“疏而不漏”地挖掘新的Web Community。最后是系统的设计与实现,在上述理论分析的基础上提出了系统的设计思想,并介绍了系统的体系结构和具体实现技术。
其他文献
矿业城市对支撑和促进国民经济发展具有特殊而重要的地位和作用,矿业城市经济转型问题是世界性难题。本文从系统分析矿业城市经济转型基本概念和现状入手,借鉴国内外矿业城市经
熊学亮(1998)在认知语法的框架下,很好地解释了汉语语篇中第一人称零形回指的机制。但是这种“自我贬低策略”无法解释汉语语篇中第三人称零形回指。此外,van Hoek(1995,1997,200
根据我国小微企业发展现状,分析小微企业税收优惠政策存在的问题,并提出相关建议。
microRNA(miRNA)是近年来在真核生物中发现的一类具有调控功能的非编码RNA,通过碱基互补在基因转录和转录后水平调控靶基因的表达,参与调控植物生长发育,并在响应多种生物及
本文从雪莲Sausurea involucrate Kar.et Kir.中提取出水溶性粗多糖,并对其进行分离纯化,测定纯化多糖XL31的结构,对雪莲多糖的体外清除自由基与抗菌活性进行了研究,为进一步探索雪
本文对中国林蛙卵的CO2超临界萃取物中国林蛙卵油(egg oil of Rana temporaria chensinensis David,EORTCD)的抗焦虑作用及其机理进行了探索。 采用大鼠高架十字迷路、小鼠爬
自然森林禁伐使粗铜火精炼常用还原剂木炭粉的来源受到极大限制,以重油、柴油、液化石油气作还原剂时,高温下裂解产生大量炭黑,使操作面劳动条件恶化,探索开发新型炭质反应剂
在关系国民经济发展的许多领域及行业之中,中小微企业具有明显优势。发展和培育中小微企业,对于促进经济持续健康发展,增强国民经济活力具有重要意义。本文利用江门市968份中
本文运用了金融集聚论,规模经济理论和地理经济学理论。根据这些原理,概述出金融中心形成的基本条件,并选择全球最具有代表性的三个金融中心:伦敦,纽约和东京进行分析,根据它们的历