论文部分内容阅读
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结果上做到面面俱到,包罗万象的结果显然不能满足用户精确搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎应运而生。与通用搜索引擎不同,垂直搜索引擎的网络蜘蛛只采集Web中的部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行(Crawling)时避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和效率。本文提出了基于主题的自适应的分词技术,使用候选词典和专业词库来指导分词和歧义消除,能有效地提高专业领域中分词的查全率和查准率。本文还提出了基于父网页的主题相关度预测算法(CPAP)、基于链入网页的主题相关度预测算法(CPAH)和TPR主题预测算法。CPAP利用了锚文本和父网页的主题相关度等信息进行预测;CPAH在预测主题相关度时综合考虑了链接的数量和质量;TPR算法则将网页的主题相关性和权威性相结合,从而有效地防止了“主题漂流”现象。为了解决普通隧道技术随着探索半径的增大,主题无关网页呈指数级增加的问题,本文提出了稀疏隧道技术,稀疏隧道技术使专业网络蜘蛛在整个Web中拉网式地探索未知网页,从而实现“疏而不漏”地挖掘新的Web Community。最后是系统的设计与实现,在上述理论分析的基础上提出了系统的设计思想,并介绍了系统的体系结构和具体实现技术。