论文部分内容阅读
随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘( Text Mining )作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于争议的研究方向。国内中文文本挖掘(CTM, Chinese Text Mining)的研究刚刚开始,面向中文语料的文本挖掘目前还没有像样的系统,还存在许多问题亟待解决。文中,我们对此进行了研究。首先,我们从理论上对文本挖掘进行了探讨。我们在数据挖掘概念的基础上进行扩展,给出了文本挖掘的定义,通过分析其特点,描述了中文文本挖掘的处理过程,继而从功能上对文本挖掘进行分类,这样便能从整体上理解文本挖掘。其次,通过分析现有的文本分类技术,从文本挖掘的角度研究了中文文本的分类问题,包括中文的分词、特征提取、特征匹配等问题,设计了文本分类系统(STCS)。然后,我们将传统的关联规则引入文本领域,给出了文本关联规则的定义,文本关联查询语言及其范式表示,在Aprior算法和IMAARC算法基础上提出了文本关联规则开采算法MATA。最后,我们论述了文本挖掘的2个应用。