中文文本数据挖掘研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:tanya_33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于争议的研究方向。国内中文文本挖掘(CTM, Chinese Text Mining)的研究刚刚开始,面向中文语料的文本挖掘目前还没有像样的系统,还存在许多问题亟待解决。文中,我们对此进行了研究。首先,我们从理论上对文本挖掘进行了探讨。我们在数据挖掘概念的基础上进行扩展,给出了文本挖掘的定义,通过分析其特点,描述了中文文本挖掘的处理过程,继而从功能上对文本挖掘进行分类,这样便能从整体上理解文本挖掘。其次,通过分析现有的文本分类技术,从文本挖掘的角度研究了中文文本的分类问题,包括中文的分词、特征提取、特征匹配等问题,设计了文本分类系统(STCS)。然后,我们将传统的关联规则引入文本领域,给出了文本关联规则的定义,文本关联查询语言及其范式表示,在Aprior算法和IMAARC算法基础上提出了文本关联规则开采算法MATA。最后,我们论述了文本挖掘的2个应用。
其他文献
随着嵌入式技术、网络技术以及汽车技术的发展,车载信息娱乐系统已成为现代汽车发展的新趋势,与此同时Android智能手机的使用正愈加普遍化,如何使驾驶者能无缝连接并通过车载
数据采集系统是数字信号处理的核心部件之一。在雷达信号处理、数字图像处理、虚拟仪器和软件无线电等领域中,数据采集都得到了广泛的应用。本文讨论的“基于PCI总线和DSP的数
软件测试作为软件质量保障的重要手段,在整个软件开发过程中占有非常突出的重要位置.大量统计数据表明,软件测试工作量往往占软件开发总工作量的40﹪以上.只有将软件测试贯穿到
该课题在深入学习、研究数据仓库和OLAP技术基本原理和开发方法的同时,具体规划,设计了以省邮政局为主体的邮政企业财务分析系统.系统在目前各级邮政企业统一使用的会计核算
随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要。粗集理论凭借其独特的优势而在数据挖掘领域中具有越来越重要的地位。本文在对粗集及其相关理论
该博士论文中,在分析了传统操作系统构造数据存储模型的各种问题,以及在参考了相关技术和系统的基础上,提出了一种新型的操作系统体系结构模型:我们称之为虚拟地址空间基于文
随着计算机技术、通信技术和信息技术的不断发展,各个行业已逐渐认识到了利用这些高新技术来实现高速采集、处理数据、自动化生产和精简工作任务的巨大潜力。GPS技术作为一种
随着网络通信技术的飞速发展,信息安全是网络应用不可回避的问题,密码学是解决这个问题的根本方法.许多软硬件开发商,为了保证自己产品的安全,开发了基于复杂且种类繁多的加
该文将应用于MIS环境下的基于Web的工作流管理系统进行研究.该文首先分析了解MIS中引入工作流技术的必要性,简要介绍了工作流管理的主要内容、优点及其与Web技术和面向对象技
随着企业信息化在实现国民经济和社会信息化中的基础地位的提高,以及对实时系统研究的不断深入,实时系统的应用也越来越广泛。将实时系统引入到控制网络通信中来改变了原有控制