基于层次分类和集成学习的文本分类技术研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:haolong12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,任何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出了两种有效的解决或改进的方法和技术。本文研究内容和创新工作主要包括以下两点。1)层次文本分类技术研究层次分类是把分类系统构造为层次结构,既把各类按照一定的层次关系组织成偏序结构。因此,层次分类从结构和性能上,对分类方法来说是一个大的改进,是一种有效的分类途径。局部层次分类是层次分类中最为普遍的方法,该方法的优点就是速度较快和简单,但是它有一个致命的弱点:在顶层被错分的样本将不可恢复。针对上述特点,本文提出了新的层次文本分类方法:考虑走多条分类途径,即在某个内部节点选择多个子类别作为下一步分类的根节点;并考虑了每个叶子节点在层次结构中的高度,平衡高度带来的结果偏差。2)集成学习文本分类研究集成学习(ensemble learning)技术利用基于学习器多个版本来解决同一个问题,可以显著地提高学习系统的泛化性能。集成学习的理论基础告诉我们影响集成学习的泛化能力的两个参数:个体的分类强度和个体之间的相关性,个体的分类强度越强和个体之间的相关性越小,则集成学习器的泛化能力就越好。论文中,提出了基于群组决策的个体选择算法并且对集成学习也作了详细的介绍。用权威的机器学习数据库中的数据集作为实验数据集,评测了方法的有效性。
其他文献
本文首先简要介绍了网格技术和虚拟实验技术的发展应用情况,着重阐述了虚拟实验及虚拟实验室的产生及国内外的发展状况,并针对目前实验室的具体情况,提出了本课题研究的必要
本文从宏观角度来考察大规模网络的流量,以一定的采样率将包汇聚成流,再将其以字节大小、流数或包数为单位对应到离散的时间轴上,它本质上属于非平稳的时间序列,具有周期性、趋势
大规模地形的实时绘制技术是当前计算机图形学领域的一个研究热点,地形的海量数据是进行地形绘制的瓶颈。如何有效地组织和简化地形数据,提高地形实时绘制速度,是当前大规模地形
随着 EPA 网络的开放互连和大量 IT 技术的引入,加上 TCP/IP 协议自身的开放性,以及层出不穷的网络病毒和攻击手段,EPA 系统的安全问题日益凸现。如果 EPA 系统的安全问题不能得
随着Internet的迅速发展,基于B/S架构的Web软件系统由于具有易于部署、容易维护和升级的优点,正逐步取代传统的基于C/S架构软件系统。Web视图层作为Web应用系统和用户的交互接
人脸识别技术是计算机视觉、计算机图形学中的一个研究热点和难点,在过去的几十年中得到了迅速的发展。但是,由于人脸非刚性、表情多变等诸多因素,使得人脸识别在实际应用中面临
目前,神经网络的理论和应用研究得到了极大的发展,而且已经渗透到几乎所有的工程应用领域。BP网络是一种多层前馈神经网络,名字源于网络权值的调整规则采用的是反向传播学习
随着人们对信息系统需求的迅速增长、国内外合作的日益频繁,项目的开发无论从业务上还是技术上复杂性都越来越大。面对开发成本、时间以及质量等各方面的约束,软件提供商需要放
移动IP的发展使得人们对移动通信的服务质量(QoS)提出了许多新的要求,需要其能满足一定的时延、丢包率以及带宽等。而随着安全问题的日益突出,通信安全也成为QoS的一个重要指标
设施农业是近十年随着农业环境工程技术的突破,迅速发展起来的新型农业生产技术。温室是设施农业的典型代表,如何实现温室的高效监控和低成本运营是目前要解决的重大问题。针