搜索引擎系统中Web挖掘技术研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:kookzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索(Information Retrieval,IR)是从数据集中提取相关文档和信息的过程,而Web的出现改变了人们进行信息检索的方式,信息检索的对象也从结构化的数据转向半结构、无结构化的数据。随着Web上数据的不断增加以及人们对查询质量的要求不断提高,传统的Web检索技术已经很难满足高质量的检索任务。Web挖掘技术是解决目前数据管理和知识发现等问题的有效方法,对于搜索引擎来说,Web挖掘技术对第三代搜索引擎的发展起着重要的作用,同时也促进网络信息获取技术向高精度、智能化方向发展。 针对目前Web信息检索中存在的问题,本文把智能挖掘算法有机的结合到搜索引擎中,提出了若干改进Web搜索引擎检索质量和效率的Web挖掘算法,并取得满意的结果。在对半结构化文档分析的基础上,提出了用概念索引的方法进行Web的全文索引并介绍了概念索引模型和相关算法,用来对全文索引降维并提高索引质量。它有效的去除了无效词汇,减少了文本矢量维数,提高查询匹配度。另外,我们还运用指纹摘要方法,对概念索引进行“消重”处理,有效的减少了重复的概念索引带来的冗余。 本文还对文本分类模型进行了论述,详细描述了它设计的各项技术,包括自动分词、特征选择、文本计算模型、识别算法等。接着对统计学理论进行了介绍,深入探讨了建立在该理论基础上的SVM算法。最后讲述SVM应用于文本分类的优势和普遍面临的问题。针对新问题,本文研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习算法,很好的解决了小规模标注样本集的分类问题。该方法尤其在难以获得大量类标签或者标注样本耗费较大的领域,更能显示出它的优越性,适合日新月异、飞速发展的互联网应用。
其他文献
本文主要研究了遗传算法在组播路由问题中的应用。遗传算法是一种全局寻优技术,适合于在复杂而庞大的搜索空间中寻找最优解,它原理简单,易于并行,广泛用于许多NP难度求解的领域。
本文所研究的来电提醒系统就是为解决手机用户如何获知因其手机关机或不在服务区等原因而错过的电话这一问题而提出的短信增值业务。 首先简要介绍了移动增值业务和短消息
  本文实现了Perl扩展的移植,可以正确运行Perl发行版自带的很多Perl扩展包以及CPAN的部分扩展包,介绍了研究背景,包括Perl扩展的移植现状以及JNI简介;简单介绍了Perl解释器核
随着企业对信息系统依赖性及系统自身复杂度的不断增加,传统的IT管理模式已经不能完全满足企业对信息系统的需求。对于IT企业来说需要的是一种以业务为中心,以流程为导向的方
Rootkit是攻击者在入侵系统后用来保持对系统的超级用户访问权限,创建后门和隐藏攻击痕迹等常采用的一种技术。Rootkit存在于Linux,Solaris和Windows等各种操作系统上。
目前国内高校大多已经建立了一系列的独立信息服务网站,这些网站从不同角度为全校师生提供服务,为推动本校信息资源建设做出了贡献。但随着知识管理理论和技术以及信息产业的不
本文主要考虑了如何减少处理器的能耗,这是因为处理器消耗了系统中很大一部分能量。     本文针对于通用系统和嵌入式系统,研究了如何使用动态电压调节技术,在不影响用户
交互语音应答系统(Interactive Voice Response system)是企业的呼叫中心为用户提供的一种自助式服务。随着国内经济的迅速发展,呼叫中心提供的这种交互语音应答系统在人们的