文本分类相关技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：hao8035

【摘要】

：

文本分词和特征表示是文本处理领域的两个重要问题。本文在这两个问题上提出了新的见解，并且在文本分类的应用环境中对提出的方法进行了探讨。大部分文本分词系统都是基于

【作者】

：

王雷

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2006年期

【关键词】

：

文本分类分词算法互关联后继树概念特征表示文本处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分词和特征表示是文本处理领域的两个重要问题。本文在这两个问题上提出了新的见解，并且在文本分类的应用环境中对提出的方法进行了探讨。大部分文本分词系统都是基于词典的，词典的存储机制对于分词的效率有决定性的影响。本文调整了互关联后继树的索引结构，用来存储中文词表。文中详细介绍了这种词表结构，并描述了建立在这一词表上的分词算法。此算法利用词语的词性信息，用匹配句模的方式排除切分歧义，取得了不错的效果。传统的文本表示方法以词语作为表示文本特征的单位，这种方法有一定的局限性。本文提出文本的概念特征表示，用概念取代词语作为文本的特征，以更简洁的方式表现原文。我们介绍了知网语义词典，提出了一种对其中的概念进行归结的算法。将归结后的概念信息附加在词表上，就建立了词语和概念之间的映射。这样，在分词过程中，就可以同时产生文本的概念特征表示。我们将概念特征表示模型应用于文本分类中，以验证其有效性。我们选取了KNN分类方法和带词频的关联规则分类法，将它们移植到概念表示模型上，给出详细的算法描述，并通过实验证明概念表示模型具有更好的分类效果。

其他文献

基于Web点击流的频繁访问序列挖掘研究

对国内外Web使用挖掘研究情况分析可知,以往的频繁访问序列挖掘算法在动静Web点击流环境中仍存在诸多问题。单纯的Web关联规则挖掘忽略了会话的时间特性;简单的频繁访问序列

学位

Web点击流频繁访问序列驻留时间会话双向约束时间敏感滑动窗

由需求分析映射到仿生软件结构

软件工程经过漫长的过程才形成一个相对成熟的学科，截至目前，软件开发方法经历了结构化程序开发方法、面向对象开发方法、以及面向构件的和面向服务的软件开发方法。随着网络技

学位

仿生软件体系结构需求分析对象关系映射

联机分析处理服务的设计与实现

随着云计算的发展，软件即服务的应用范围越来越广泛。联机分析处理（OLAP）系统提供多维视图，方便决策者从多个维度对企业的历史数据进行分析，深入了解企业的运行情况，从而更好、更快

学位

联机分析处理系统结构设计服务模式性能测试

政府服务呼叫中心系统业务逻辑研究

政府服务呼叫中心系统主要是将现代数据库技术、通信技术、Cn技术、多媒体技术以及计算机管理信息系统相结合，在支持数据和语音业务的基础上，建立一个开放的、标准的电子政务统

学位

呼叫中心计算机电话集成业务逻辑分布式系统数据挖掘

基于安全视图的XML查询及更新问题的研究

随着越来越多的数据采用XML来表示和传输,XML正逐渐成为新的Web语言,XML文档的安全性变得非常重要。为了防止用户根据发布的信息来推断XML文档中的敏感信息,本文采用基于安全

学位

XML安全安全视图查询重写查询优化安全视图更新

基于遗传算法的构件化软件测试用例生成研究

随着软件规模的不断扩大,高效率和高质量的软件开发成为现代软件工程学研究的热点。基于构件的软件工程(Component-Based Software Engineering,简称CBSE)是为了保证高效、优

学位

构件化软件测试技术改进的免疫遗传算法构件化软件测试用例生成模型疫苗

基于PMAC下数控系统的设计与实现

数控技术是现代制造技术的基础，同时也是提高产品质量和提高生产率必不可少的物质手段。数控技术正朝着高速化、高精度化、多功能化、复合化和智能化等方向发展。目前，采用锻旋

学位

数控系统旋压机动态链接库PID控制锻旋工艺

无线网络中的分布式资源管理策略研究

在无线网络中，通用移动通信系统(Universal Mobile Telecommunications System,UMTS)能够为不同地理位置的移动电脑和手机用户提供一致的服务集合。作为UMTS的一部分，地面无线

学位

无线网络分布式资源管理策略资源标识符需求饱和度

手持式数控编程器的研究与设计

随着计算机技术的飞速发展，各种不同层次的开放式数控系统应运而生，正朝着标准化开放体系结构的方向发展，与国外数控技术和产品相比我国数控机床的基础件和功能部件发展滞后，制约

学位

手持式数控编程器单片机软件设计串口通讯

基于H_ARBAC模型的PMI访问控制判决系统的研究与实现

计算机网络能有效地实现资源共享，但资源共享和信息安全是一对矛盾体。随着资源共享的进一步加强，随之而来的信息安全问题也日益突出，而权限管理和访问控制又是网络应用安全的重

学位

权限管理基础设施ARBAC97模型轻量目录访问协议

文本分类相关技术研究

其他学术论文