【摘 要】
:
网络信息量的指数增长对信息检索提出了更高的要求。为方便信息检索,有必要先对海量的电子信息按其内容加以分类。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程
论文部分内容阅读
网络信息量的指数增长对信息检索提出了更高的要求。为方便信息检索,有必要先对海量的电子信息按其内容加以分类。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的问题,已经在信息检索、信息过滤、搜索引擎、数字化图书馆等领域广泛的应用。
本文首先对文本分类领域的几个关键问题进行了描述,同时给出了典型的文本分类过程及系统框架。然后,对文本的表示、相似性度量、权重的计算、文本分类模型、降维技术以及评价标准作了详细的阐述。
若要有效地实现文本分类,维数约减是必不可少的,它不仅可以去除冗余和噪声数据,节省存储空间,降低计算的复杂度,而且直接影响到分类器的设计及分类的精度。它在信息检索、机器学习和模式识别中也是至关重要的一步。本文主要针对信息检索中的文本分类的降维技术进行了研究,主要工作包括以下几个方面:
第一,特征选择在文本分类领域里一直扮演着重要的角色。本文通过引入特征项的权重,改进了原有的信息增益、期望交叉熵、文本证据权特征选择方法的评估函数,提出了一种加权的文本特征选择方法。
第二,为了更好的利用权重信息,本文从特征项与类之间关系的角度考虑,提出了一种基于模糊关系的文本特征选择方法。通过权值确定隶属度,再用其隶属度构造了一个评估函数,用它来对原始空间进行特征选择。
第三,文本处理过程中的一个基础性问题是文本的表示和索引。本文从判别能力上分析,提出了一种称为有监督的保局索引(SLPI)算法,SLPI目标是发现文本空间的局部结构,它是一种线性的维数约减技术。并利用“核方法”将其推广到非线性的情况,即有监督的核保局索引(SKLPI)。
其他文献
P2P的优势在于充分利用分散在网络中的各种资源,使因特网内容从中心走向边缘。互联网中P2P技术的成功应用为移动通信服务提供了有益的借鉴,移动P2P被认为是无线宽带互联网的未
记录系统对操作系统的可靠性有极其重要的意义,记录系统通常与回放系统一起应用到操作系统的调试、故障恢复和还原间谍软件攻击等方面。随着虚拟机技术的发展,虚拟机提供了更
P2P(Peer to Peer)技术将人们直接的连接起来,使得人们可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。P2P中的BT(BitTorrent)技术是
近年来因特网在全球范围内飞速发展,其上遍布着大量的通讯和计算资源,从而产生一个科学问题:可否利用因特网复杂环境下的闲散资源(含计算资源与通讯资源,特别是通讯资源)进行
感知起源的存储系统(provenance-aware storage system PASS)是自动收集系统中对象起源信息的存储系统。起源信息是指,一个文件对象的完整历史数据,包括产生数据时的命令及参
虚拟现实技术融合多种信息技术的最新发展成果,为我们创建和体验虚拟世界提供了强有力的支持,并广泛应用到了社会的各个领域。在虚拟场景中,水体真实感的渲染是非常重要的组
当前水环境信息系统大多为两层C/S(客户端/服务器)结构或者三层B/S(浏览器/服务器)结构,在C/S结构中存在着耦合度高、通用性差、管理维护复杂等缺陷,且扩展性不强,不利于大量用
目前,彩铃业务作为一种电信增值业务,发展势头迅猛,已经成为继短信业务之后的又一杀手级电信增值业务。彩铃平台包括彩铃运行平台和彩铃管理平台。彩铃用户通过彩铃运行平台
分布式拒绝服务攻击(DDoS)利用现有IPV4网络体系下TCP/IP协议设计上的漏洞(例如IP地址易于伪造,攻击源头追溯困难等)实施攻击。DDoS攻击采用分布式攻击方式使得数据流呈无规
参数化建模技术作为一种有效的变动设计技术,在工业界与学术界得到广泛的研究与运用。它允许用户首先构建基于尺寸参数的CAD模型,然后通过参数修改生成变动模型,因此在系列化