【摘 要】
:
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。此外,工作频率不断加快的现代商务人群对通用搜索页面中的大量非目标源信
论文部分内容阅读
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。此外,工作频率不断加快的现代商务人群对通用搜索页面中的大量非目标源信息感到不满,开始对专业领域的搜索精确性产生了强烈的需求,因此,而向专业领域的搜索引擎即垂直搜索引擎应运而生。承乘广缘网络科技有限公司针对这一需求,筹各创建面向商业用户的垂直搜索引擎一一搜商网。
本文依托该项目研究设计了搜商网的搜索引擎。本文分析了当前Web信息检索的模型及算法,针对搜商网垂直搜索引擎中的一些关键问题展开研究,主要包括三个核心模块:搜商网的信息爬取、信息分类及信息索引。
信息爬取模块针对如今Web上页面上噪声较多,且相关链接较为集中,成块出现等特点,对原有的Shark-Search算法进行了改进,具体内容包括避开广告等与主题无关的噪声,提高相关网页块中锚文本与主题无关链接的优先级,使相关链接优先爬取,并获得更多相关链接。
信息分类模块提出了一种简单的阶梯式一对一支持向量机文本分类器。分类算法分析了支持向量机在文本分类中的优势,结合支持向量机理论二分类的特点,将多类依次使用多个分类器分开,这种方法拥有模型简单,分类准确及易于实现等优点。
信息索引模块提出了一种基于中文分词索引的倒排序索引数据库。本文使用由正排索引结果建立倒排索引的方法建立索引数据库,并在索引库中使用改进的链表式存储结构,减少了更新数据库多花费的服务器开销。
最后基于以上设计,本文给出了搜商网垂直搜索引擎的系统总体框架设计。
其他文献
无线Mesh网(Wireless Mesh Network,WMN)是无线局域网和移动自组织网络的结合,具有自组织、自配置和自治愈等特点,是一种新型的多跳网络结构,是下一代无线网络的关键技术。由
驾驶员疲劳已成为引发交通事故的主要因素之一,用基于机器视觉的方法来检测驾驶员疲劳在实时性、准确性、非接触性、适用性及经济性等方面比其他监控方法有更大的优势,成为当
无线传感器网络(WSN,wireless sensor network)是以多个小体积、低成本的传感器节点经由多跳路由形成的分布式数据收集网络。经过近年来对WSN在各方面应用的学习和研究,我们
现代的编程语言(Java、C#、Ruby、JavaScript等)往往都使用自动的内存管理技术,使用垃圾收集器来负责内存空间的管理,程序员只负责分配内存,无需关注内存的回收工作,内存的回收工
无线传感器网络被认为是21世纪最重要的技术之一,在军事、环境、工业等领域具有相当广阔的应用。传感器节点的定位技术因其在无线传感器网络中发挥着重要作用而尤为受到关注
随着Internent的快速发展,人们的生活方式和传统的信息交换方式也受到巨大的影响。伴随着各种各样的应用需求和网络规模越来越大,网络管理工作也越来越繁重和困难。网络拥塞
在涉及赛跑类的体育比赛中,运动员成绩的准确程度,是由高精度的计时和精确的终点定位共同决定的。高精度的计时很容易实现,但精确的终点定位,人眼已无法完成,必须借助于电子
传统的系统辨识方法大多建立在模型结构已知的基础上,需要过多的先验知识。而现实中存在的大量非线性时变系统,其先验知识匮乏,模型结构难以确定,给辨识工作带来了巨大的困难
随着移动网络技术的飞速发展以及移动用户数量的急剧增长,通过无线网络运作的移动增值产业及无线互联网越来越成为一个富有生命力的新兴市场。从用户使用习惯来看,用户关心的
视频图像的运动目标检测是计算机视觉领域的一个重要的研究课题,把运动目标从实时变化的背景中快速、准确的分离出来是对图像进一步分析处理的关键。在本课题中,我们要解决的