文本挖掘的若干关键算法研究

被引量 : 0次 | 上传用户:asdf20091234567889
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是一个非常活跃的研究领域,是数据挖掘领域的一个重要分支。文本挖掘采用了很多传统的数据挖掘技术,但又有自己的特性。本文试图采用支持向量机,流形学习与图论等理论,以网络文本为研究对象,全面开展文本分类、聚类、压缩、可视化及排序等方面的算法研究。全文的主要工作包括以下几个方面:1)在定理证明的基础上,提出一种连分式Mercer核,它可以方便地应用于支持向量分类机和其它支持向量机算法。在5个UCI数据库实验中取得了比传统核支持向量机更好的综合水平,而且它还可以方便地被用于合成复杂核,将此连分式核的支持向量机应用到网络文本分类中,提高了网络文本分类正确率。2)提出了两个判别性的特征提取方法–判别性PCA和判别性KPCA。基于PCA和MMC理论,构造了一个多目标规划模型作为特征提取的目标。随后,该模型被转化成一个单目标规划问题并通过特征分解的方法求解。此外,将一个近似分块对角核矩阵K分成c个小矩阵并求出它们的特征值和特征向量,在此基础上,通过张量代数处理得到一种映射矩阵V,核矩阵投影到V上后能最大程度上保持同类样本间的相似信息,同时还能让类间距离变得更大。3)提出了一种新的基于支持向量回归的偏好学习算法。它克服了偏好学习不一致问题并改善了排序的泛化能力。同时,WMW统计量被引入以评价算法的排序表现。在一个人工数据集和几个基准数据集上的实验显示了方法的有效性。最后,该方法还被应用到网络搜索系统的排序问题中,获得了较高的排序准确率。4)共享最近邻(SNN)相似度是一种新的相似性度量,它能克服样本间相似性低和类密度差异大的问题。目前,基于SNN相似度的聚类算法有JP聚类和基于SNN密度聚类两种。它们的聚类结果完全依赖于单链的强度,因而算法非常脆弱。引入计算几何学中的光滑拼接思想,设计了一种新的基于SNN相似度的光滑拼接聚类算法。它内含强度-光滑度互补机制,相比已有的两种算法,该算法的泛化能力较高。在公开的文本数据集上做比较实验,结果显示,该算法在多个类别上取得了最高的聚类准确率和召回率。5)针对互联网开放性、层次性、演化性、巨量性等本质特性,从复杂自适应系统这一全新的角度,以农业垂直搜索为应用背景,提出一种新的复杂自适应搜索模型。该搜索模型的主要特点是通过建立信息采集、分类、清洗与服务智能体联盟,组成多智能体实验环境;通过建立模型的学习机制与进化机制,改善搜索模型对网络环境的动态适应能力。经过与现有主流搜索引擎的比较实验发现,它在查准率方面具有明显的优势。同时,由于该搜索模型具备通用的结构体系,因而在建立其它行业的垂直搜索模型时它可以被方便地移植使用。
其他文献
<正>云计算与零售业蓄势待发云计算2011~2012年在零售业开始逐步升温,与以前不同,业内不但看云、谈云的人多了,登云零售的企业也开始增加了。以往那种卖者热买者冷的局面在一
串口通信具有连接简单、使用方便灵活、数据传递可靠等优点,在工业监控、数据采集、实时控制系统中得到广泛应用。本文主要介绍了在VxWorks下实现串口通信的关键技术,给出了
目的:探讨黄芪糖蛋白对T细胞增殖与共刺激分子表达的影响。方法:无菌制备大鼠脾脏悬浮细胞,分离淋巴细胞,接种后加入黄芪糖蛋白共培养,采用MTT法检测淋巴细胞的增殖情况,采用
东北地块群主要有额尔古纳、兴华、松嫩、佳木斯和兴凯等地块,它们都不是从西伯利亚克拉通分裂出来的,而都具有独立的演化史.额尔古纳、兴华地块参与到西伯利亚板块东南大陆
基于CNKI数据库2001~2009年度的数据,采用文献计量学的方法对《高等工程教育研究》的刊载论文总量及被引用的具体情况、载文学科分布、高频被引论文、地区分布、核心作者群、
伴随着移动终端的急速发展,移动阅读成为用户新的阅读方式,期刊App在短时间内深得众多用户的青睐,但用户黏性不高的问题始终制约着它的发展。面对这个状况,期刊App应从内容和
目的探讨小檗碱对脂肪细胞糖代谢的影响。 方法检测药物处理 2 4h或 4 8h后 3T3-L1脂肪细胞对培养液中的葡萄糖消耗量 ,以 2 -脱氧 - 3H -D -葡萄糖摄入法观察葡萄糖的转运
通过挖掘分析《扁鹊心书》中反映的窦材学术思想,认为窦氏推崇扶阳,善用灸法,尊崇《内经》,贬抑《伤寒》,他提出"伤寒四经"说,认为大病、住世、扶阳宜灸,灸时常用食窦、中脘
虚拟手术仿真系统在医生的临床手术实践培训中发挥了巨大作用,为医生提供了一个视觉、听觉、触觉方面具有现实感和沉浸感的虚拟手术环境,医生仿佛置身于真实手术室中进行手术
<正>~~