【摘 要】
:
互联网时代的来临,使得各种电子文本数据急剧增加,如何快速有效地获取、管理和使用这些文本数据,己经成为信息系统学科迫切需要解决的重要问题。而文本分类技术是信息处理技
论文部分内容阅读
互联网时代的来临,使得各种电子文本数据急剧增加,如何快速有效地获取、管理和使用这些文本数据,己经成为信息系统学科迫切需要解决的重要问题。而文本分类技术是信息处理技术的重要研究方向,它是对大量的自然语言文本按照一定的主题类别进行自动分类。传统的文本分类算法(或传统模式识别)都是基于最佳划分的,而仿生模式识别(Biomimetic Pattern Recognition,BPR)是基于“认识”事物而不是“区分”事物,更符合人类认识世界的本质,所以本文把仿生模式识别的理论应用在文本分类中。仿生模式识别是一种不同于传统模式识别的理论方法,它的理论基点是特征空间中同类样本的连续性(不能分裂成两个彼此不邻接的部分)特性。它通过对同类本的在高维特征空间的最佳覆盖来达到识别样本的目的。本文对仿生模式识别的理论基础、数学工具和实现方式进行了深入的研究学习,提出了用超香肠型神经元(Hyper Sausage Neuron,HSN)网络实现基于仿生模式识别的文本分类算法。在HSN网络分类算法的基础之上,本文又提出了三种改进方法。对训练样本冗余和噪声的研究,提出了HSN网络和聚类结合的分类算法;对边界样本存在误识别问题的研究,提出了HSN网络的K最高识别算法;而对特征噪声问题的研究提出了二次特征选择算法。此外,还提出了HSN网络和SVM融合的分类算法。在英文数据上,实验结果表明改进的HSN网络分类算法比传统的KNN和SVM分类性能要好;而在中文数据上,改进的HSN分类算法性能要优于KNN,而HSN和SVM融合后分类效果好于它们中的单个分类性能。
其他文献
Kalman滤波是一种实时线性递推算法,计算过程简单,有迭代的优点,特别适用于计算机在线估算。它已成功地应用于空间技术、潜艇和飞行器的导航与定位,以及火力控制系统等方面;在工业
IPv4协议是目前因特网互联技术公认的标准,然而由于近几年IPv4互联网规模的不断增大以及应用范围不断拓展,它在地址数量,移动性,服务质量和安全性等方面所具有的局限性越来越
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之
随着人们求解问题领域的不断扩展,所遇到的问题越来越复杂,而且规模也越来越大,解决这些问题所要求的计算能力也在大幅度提高。又由于考虑到高成本超大型计算机没有得到充分
近年来,嵌入式系统产业发展极为迅速,已经广泛用于移动计算设备、网络设备、工业控制、信息家电、娱乐设施、医疗器械等领域。嵌入式系统的迅猛发展,使得Linux在应用领域也得
网格是用来表述一种适用于高端科学和工程的分布式计算体系结构,它试图实现互联网上所有资源的全面共享,其中包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资
三维重建是计算机视觉中的一个热点问题,也已经成为摄影测量、视觉检测、计算机视觉等领域的重点研究课题之一,在测绘、工业控制、导航、军事等领域得到了极大的应用。三维重
随着计算机网络技术的不断发展和企业信息化建设水平的逐渐提高,市场越来越需要有一种既能融合最新的计算机技术和现代管理思想为一体的新型软件管理系统—ERP(Enterprise Resource Plan)系统。本文研究的目的就是在以煤焦生产为代表的传统产业中,通过引进先进的ERP系统来解决企业在快速发展过程中所面临的管理效率问题。本项目是山西晋阳煤焦集团信息化项目的子项目,经过对山西晋阳煤焦集团业务
随着网络应用的迅猛发展,基于IP网络的VoIP (Voice over IP, IP电话)技术得到了广泛应用。VoIP最大的优势是能广泛的应用于Internet和全球IP互连的环境,提供比传统的PSTN电话