论文部分内容阅读
从上个世纪90年代中期起,互联网进入了快速发展的阶段,电子文本信息与服务站点数量呈指数级增长,人们可以更加方便快捷地在互联网上获取信息。互联网上存储着海量的网络文本信息,其中中文文本占了相当一部分比重,由于中文本身所具有的特殊性,如何准确、高效地获取有价值的中文信息成为当前信息处理领域中一个亟待解决的难题,而当前的文本分类技术为该问题的解决提供了一种可行的途径。 本文深入分析了文本分类的相关技术,从特征选择和文本分类两方面对已有方法进行了改进,最后将改进的算法应用于网络热点事件发现的过程中,其主要工作包括: (1)深入研究传统的特征选择函数,分析各种方法存在的利弊。提出了通过加强特征词与各个文本类别之间的关联性,以及平衡正负特征对文本分类的作用,来改进信息增益特征选择方法的性能。 (2)为了解决K最近邻文本分类方法存在的时间复杂度高和K值无法确定的问题,提出了一种基于关联分析的K最近邻改进算法。利用Apriori算法对训练文本进行关联信息提取,进而确定被测文本的最近邻和最近邻数K,从而达到降低K近邻算法的时间复杂度和提高文本分类准确性的目的。 (3)将改进的特征选择方法和分类算法应用于网络热点事件发现中,实验结果表明,利用改进的特征选择方法和K近邻分类方法,能够提高热点事件发现的准确率和效率,有助于快速准确地了解社情民意。