论文部分内容阅读
文本挖掘是一个非常活跃的研究领域,是数据挖掘领域的一个重要分支。文本挖掘采用了很多传统的数据挖掘技术,但又有自己的特性。本文试图采用支持向量机,流形学习与图论等理论,以网络文本为研究对象,全面开展文本分类、聚类、压缩、可视化及排序等方面的算法研究。全文的主要工作包括以下几个方面:1)在定理证明的基础上,提出一种连分式Mercer核,它可以方便地应用于支持向量分类机和其它支持向量机算法。在5个UCI数据库实验中取得了比传统核支持向量机更好的综合水平,而且它还可以方便地被用于合成复杂核,将此连分式核的支持向量机应用到网络文本分类中,提高了网络文本分类正确率。2)提出了两个判别性的特征提取方法–判别性PCA和判别性KPCA。基于PCA和MMC理论,构造了一个多目标规划模型作为特征提取的目标。随后,该模型被转化成一个单目标规划问题并通过特征分解的方法求解。此外,将一个近似分块对角核矩阵K分成c个小矩阵并求出它们的特征值和特征向量,在此基础上,通过张量代数处理得到一种映射矩阵V,核矩阵投影到V上后能最大程度上保持同类样本间的相似信息,同时还能让类间距离变得更大。3)提出了一种新的基于支持向量回归的偏好学习算法。它克服了偏好学习不一致问题并改善了排序的泛化能力。同时,WMW统计量被引入以评价算法的排序表现。在一个人工数据集和几个基准数据集上的实验显示了方法的有效性。最后,该方法还被应用到网络搜索系统的排序问题中,获得了较高的排序准确率。4)共享最近邻(SNN)相似度是一种新的相似性度量,它能克服样本间相似性低和类密度差异大的问题。目前,基于SNN相似度的聚类算法有JP聚类和基于SNN密度聚类两种。它们的聚类结果完全依赖于单链的强度,因而算法非常脆弱。引入计算几何学中的光滑拼接思想,设计了一种新的基于SNN相似度的光滑拼接聚类算法。它内含强度-光滑度互补机制,相比已有的两种算法,该算法的泛化能力较高。在公开的文本数据集上做比较实验,结果显示,该算法在多个类别上取得了最高的聚类准确率和召回率。5)针对互联网开放性、层次性、演化性、巨量性等本质特性,从复杂自适应系统这一全新的角度,以农业垂直搜索为应用背景,提出一种新的复杂自适应搜索模型。该搜索模型的主要特点是通过建立信息采集、分类、清洗与服务智能体联盟,组成多智能体实验环境;通过建立模型的学习机制与进化机制,改善搜索模型对网络环境的动态适应能力。经过与现有主流搜索引擎的比较实验发现,它在查准率方面具有明显的优势。同时,由于该搜索模型具备通用的结构体系,因而在建立其它行业的垂直搜索模型时它可以被方便地移植使用。