【摘 要】
:
随着计算机能力的日益增强和存储容量的增长,大规模的数据获取更为方便和普遍,同时也产生了新的问题。在很多领域中,如文本挖掘、生物特征认证、图像分析和计算机视觉、信息检索
论文部分内容阅读
随着计算机能力的日益增强和存储容量的增长,大规模的数据获取更为方便和普遍,同时也产生了新的问题。在很多领域中,如文本挖掘、生物特征认证、图像分析和计算机视觉、信息检索中的文本分析和计算生物学等,获得的是高维数据,这样极有可能导致“维数灾难”的出现。近年来,流形学习成为了机器学习领域的一个热点研究方向,流形学习期望从高维数据空间中寻找数据隐含的规律性与结构,被广泛用于高维数据降维,是一种非线性数据降维方法。文本分类作为信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。由于文本数据的非结构化特点,进行文本表示时,特征向量高达几万维甚至于几十万维。高维的特点会大大增加冗余特征信息,从而导致分类的准确度下降。数据降维能够减少文本向量的维数,而使特征向量能更好地代表文本或者类别特征。本文假设文本向量空间存在一个潜在的文本流形,将文本看做是这个流形上抽样的点,将流形学习应用在文本分类的文本预处理过程中,提出了一种基于ISOMAP的Bagging文本分类算法,比较完整地描述了相关理论基础及算法的具体流程,并对ISOMAP算法进行了增量式改进,提出了一种基于增量流形学习的Bagging文本分类算法,并进行了实验比较和分析,实验证明了流形学习在文本分类中的应用,能有效提高文本分类的性能。
其他文献
脆弱性是当前国内外应急管理工作十分关注的前沿科学问题。脆弱性是事故灾难的基本成因,把脆弱性作为致灾主要因素有助于加深对各类灾害本质的认识。在阐述脆弱性的基本概念
知识是企业核心竞争能力的源泉,而知识共享对知识创造、组织学习和组织绩效起着关键的作用。知识共享是通过知识在个体之间的流动和交换得以实现的,主要是基于个体层面的。在
在过去的几十年里,全球风险投资规模飞速扩张,与此同时,科技领域的创新活动显著增加。学界从理论和经验角度对风险投资与创新之间的关系进行了大量研究。我们从风险投资的概
BH550 是北京博华公司信智科技发展公司的一款状态检测系统,可提供机泵在线离线状态检测、往复压缩机在现检测,集设备诊断、检测、管理与一身,对设备管理与维修保障提供重要
<正>教学内容人教版六年级上册第三单元第9课。教学目标1.在充分感受穷人的贫苦与不幸基础上,感受穷人精神的不穷苦。2.学习作者用心理活动刻画人物的写法并尝试运用。教学过
一直以来,融资困难是中小企业面临的重要问题,虽然随着市场资本的发展,融资困难得到了改善,但是中小企业依然没有走出融资难的困局。所以本文以“电商小贷”作为研究对象,提
目的:探讨老年急性心肌梗死合并脑梗死患者的临床特点。方法选取该院2008年6月至2013年6月收治的79例老年急性心肌梗死合并脑梗死患者,按预后分为死亡组和存活组,对两组患者的患
在证券市场中,资源的优化配置主要是通过信息影响股票价格来实现的。影响股票价格的信息主要来源于市场、行业和公司三个层面。股价信息含量是指股票价格中所包含的公司层面特
随着改革开放和现代化进程的日益深化,中国城市景观事业得到空前的发展。被誉为“城市客厅”的城市广场,自然受到人们的喜爱和追求。全国各地掀起了一场兴建城市广场的潮流。
数据压缩技术作为一门新兴的信息技术,旨在满足特定需求的条件下达到减少存储空间,提高其传输、存储和处理效率的目的。由于网络环境异常复杂,目前还没有专门针对网络传输的数据