文本分类相关技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:hao8035
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分词和特征表示是文本处理领域的两个重要问题。本文在这两个问题上提出了新的见解,并且在文本分类的应用环境中对提出的方法进行了探讨。 大部分文本分词系统都是基于词典的,词典的存储机制对于分词的效率有决定性的影响。本文调整了互关联后继树的索引结构,用来存储中文词表。文中详细介绍了这种词表结构,并描述了建立在这一词表上的分词算法。此算法利用词语的词性信息,用匹配句模的方式排除切分歧义,取得了不错的效果。 传统的文本表示方法以词语作为表示文本特征的单位,这种方法有一定的局限性。本文提出文本的概念特征表示,用概念取代词语作为文本的特征,以更简洁的方式表现原文。我们介绍了知网语义词典,提出了一种对其中的概念进行归结的算法。将归结后的概念信息附加在词表上,就建立了词语和概念之间的映射。这样,在分词过程中,就可以同时产生文本的概念特征表示。 我们将概念特征表示模型应用于文本分类中,以验证其有效性。我们选取了KNN分类方法和带词频的关联规则分类法,将它们移植到概念表示模型上,给出详细的算法描述,并通过实验证明概念表示模型具有更好的分类效果。
其他文献
对国内外Web使用挖掘研究情况分析可知,以往的频繁访问序列挖掘算法在动静Web点击流环境中仍存在诸多问题。单纯的Web关联规则挖掘忽略了会话的时间特性;简单的频繁访问序列
软件工程经过漫长的过程才形成一个相对成熟的学科,截至目前,软件开发方法经历了结构化程序开发方法、面向对象开发方法、以及面向构件的和面向服务的软件开发方法。随着网络技
随着云计算的发展,软件即服务的应用范围越来越广泛。联机分析处理(OLAP)系统提供多维视图,方便决策者从多个维度对企业的历史数据进行分析,深入了解企业的运行情况,从而更好、更快
政府服务呼叫中心系统主要是将现代数据库技术、通信技术、Cn技术、多媒体技术以及计算机管理信息系统相结合,在支持数据和语音业务的基础上,建立一个开放的、标准的电子政务统
随着越来越多的数据采用XML来表示和传输,XML正逐渐成为新的Web语言,XML文档的安全性变得非常重要。为了防止用户根据发布的信息来推断XML文档中的敏感信息,本文采用基于安全
随着软件规模的不断扩大,高效率和高质量的软件开发成为现代软件工程学研究的热点。基于构件的软件工程(Component-Based Software Engineering,简称CBSE)是为了保证高效、优
数控技术是现代制造技术的基础,同时也是提高产品质量和提高生产率必不可少的物质手段。数控技术正朝着高速化、高精度化、多功能化、复合化和智能化等方向发展。目前,采用锻旋
在无线网络中,通用移动通信系统(Universal Mobile Telecommunications System,UMTS)能够为不同地理位置的移动电脑和手机用户提供一致的服务集合。作为UMTS的一部分,地面无线
随着计算机技术的飞速发展,各种不同层次的开放式数控系统应运而生,正朝着标准化开放体系结构的方向发展,与国外数控技术和产品相比我国数控机床的基础件和功能部件发展滞后,制约
计算机网络能有效地实现资源共享,但资源共享和信息安全是一对矛盾体。随着资源共享的进一步加强,随之而来的信息安全问题也日益突出,而权限管理和访问控制又是网络应用安全的重