基于本体和潜在语义索引算法的文本分类方法研究

来源 :东北师范大学 | 被引量 : 6次 | 上传用户:q258007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,互联网上的数据和信息呈现海量特征,文本分类作为处理和组织大量文本信息的关键方法,可以方便人们准确地找到自己所需要的知识。信息的爆炸式增长,使人们对文本分类的要求越来越高。传统的基于统计和机器学习的分类方法需要大量的训练集来训练分类模型,如果类别改变需要重新收集大量的训练集合,费时费力。这些传统方法大多采用向量空间模型进行文本表示,会导致特征向量的高维性和稀疏性。在高维的特征空间中实现文本分类,分类的计算量大而且效率低,无法满足用户的需求。本文提出一个基于本体的文本分类的通用框架,重点对文本分类任务中的特征降维和分类两个关键方法进行了深入研究,同时将潜在语义索引算法和领域本体应用到该文本分类的通用框架中,实现了基于本体和潜在语义索引算法的文本分类原型系统。具体内容如下:1.在领域专家的协助下,采用本体开发工具protege3.3,手工构建茶本体,为实现文本分类提供语义信息。2.采用潜在语义索引算法对特征向量进行降维,剔除对分类作用不大的特征项,减少向量维数。3.基于前人工作的基础,结合领域本体知识构建分类器,实现基于语义的文本分类。4.通过与传统的朴素贝叶斯分类器进行对比实验,验证了该方法的可行性和有效性。实验结果表明该方法能够取得较好的分类精度,提高了文本分类的性能。本体作为知识组织和知识表示手段,在理论上具备很多的优势和潜在的功能。将本体的概念引入到文本挖掘领域的应用层面上,为人们实现文本的自动分类提供一种新思路。基于本体的分类方法无需训练样本,可以通过本体获得语义信息并结合文本分类的关键技术实现对文本的自动分类。该研究为基于语义的信息挖掘提供了重要的基础,具有重要的实用价值和广泛的应用前景。
其他文献
近年来,随着无线通信和网络技术的迅速发展,移动通信技术应用越来越广泛,服务日趋多样化。下一代无线网络将承载语音、数据、视频等多种业务,这些业务具有不同的带宽需求和服
随着现代信息网络技术的快速发展,用户对网络服务能力的要求也日益提高。由于受到网络带宽、网络设施等因素的限制,如何提高网络服务的效率成为现代网络急需解决的问题。内容
节点自定位技术是无线传感器网络的主要支撑技术之一。在大多数无线传感器网络应用中,确定传感器节点的物理位置是最基本的要求。目前现有的无线传感器网络节点自定位算法普
中医医案蕴藏着丰富的知识,它们作为中医药理论与经验的载体,贯穿并指导着临床实践,其学术价值和实用价值经久不衰。因此对医案的合理开发利用是中医研究中一项必不可少的工
互联网的迅猛发展使得计算机技术在各个领域的应用有了突飞猛进的发展,尤其是在实时控制、信息处理、信息传输、技术支持等领域广泛应用更是体现了其快速发展的特性。计算机
中文分词是中文信息处理领域内的一个重要课题,传统的分词方法多基于统计模型,尽管可以取得不错的效果,但是统计模型依赖大量有标注样本,具有人工标注样本代价高的缺点。主动
Web服务合成包括服务组合和服务协作。服务组合在设计阶段定义复合规范,在中心控制组件的帮助下完成合成过程;服务协作在运行时刻才选择和调用所需服务,通过对等消息传递完成
在人工智能(AI)领域,计算机博弈历来都是一个重要的研究方向。对中国象棋计算机博弈的研究始于上世纪八十年代,经过二十多年的努力,出现了大量优秀的博弈系统,在对弈能力方面
网格技术是近年来兴起的一门信息新技术,它代表了继Internet技术和Web技术之后的第三次技术浪潮。它将高性能计算机、分布式技术、因特网等多种技术有机地结合起来,实现地理
本世纪初,摩尔定律的失效加速了多核处理器的问世和不断普及,硬件并行化的发展反过来也推动了工业界对软件并发性的研究。软件内存事务是用软件的方法对内存操作进行封装,以