论文部分内容阅读
信息检索(Information Retrieval,IR)是从数据集中提取相关文档和信息的过程,而Web的出现改变了人们进行信息检索的方式,信息检索的对象也从结构化的数据转向半结构、无结构化的数据。随着Web上数据的不断增加以及人们对查询质量的要求不断提高,传统的Web检索技术已经很难满足高质量的检索任务。Web挖掘技术是解决目前数据管理和知识发现等问题的有效方法,对于搜索引擎来说,Web挖掘技术对第三代搜索引擎的发展起着重要的作用,同时也促进网络信息获取技术向高精度、智能化方向发展。
针对目前Web信息检索中存在的问题,本文把智能挖掘算法有机的结合到搜索引擎中,提出了若干改进Web搜索引擎检索质量和效率的Web挖掘算法,并取得满意的结果。在对半结构化文档分析的基础上,提出了用概念索引的方法进行Web的全文索引并介绍了概念索引模型和相关算法,用来对全文索引降维并提高索引质量。它有效的去除了无效词汇,减少了文本矢量维数,提高查询匹配度。另外,我们还运用指纹摘要方法,对概念索引进行“消重”处理,有效的减少了重复的概念索引带来的冗余。
本文还对文本分类模型进行了论述,详细描述了它设计的各项技术,包括自动分词、特征选择、文本计算模型、识别算法等。接着对统计学理论进行了介绍,深入探讨了建立在该理论基础上的SVM算法。最后讲述SVM应用于文本分类的优势和普遍面临的问题。针对新问题,本文研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习算法,很好的解决了小规模标注样本集的分类问题。该方法尤其在难以获得大量类标签或者标注样本耗费较大的领域,更能显示出它的优越性,适合日新月异、飞速发展的互联网应用。