论文部分内容阅读
本文对短信分类的关键技术做了深入的讨论。结合贝叶斯分类的文本分类方法和Bigram分词的方法,并提出在移动手机终端进行双层短信过滤模型,对传统的文本分类进行了改进,有效地提高了短信文本分类的准确率和普适性。本文首先介绍了传统的文本分类问题的研究,回顾了文本分类领域已有的成果,介绍了文本分类领域中的几个重要知识,包括文本分词,文本表示,特征选择,分类方法以及分类效率评估标准等。指出了随着信息量的不断发展,文本分类的重要性。接着,本文讨论了短信文本内容相对于传统文本分类时的长文本的区别,介绍了短信相对普通文本的独有特点。现有的诸多分类算法,直接应用于短信分类时效果不理想,还不能快速有效地对短信进行分类;同时,现有的研究大多是在PC平台上对短信进行处理,对于移动手机端上的应用环境研究较少,因此研究针对移动终端上的短信分类算法有着一定的理论和实践指导意义。针对移动终端的运算能力和存储能力,本文没有采用大型的分词词库,而是采用简单易行的Bigram分词方法,通过去除停用词等手段对分词结果进行预处理,得到短信内容的特征向量。计算量少,速度快,实验效果也较理想。由于短信相对于普通的文本,有其特有的外部特征,本文提出一个双层过滤的短信分类模型,先根据短信的外部特征进行一次预分类,对于不能确定的短信再进行针对短信文本内容的文本分类。通过不断地积累数据集中的短信,本文采用了重新学习的自动学习算法,让分类器定期进行重新运算,调整各词的先验概率,从而不断提高系统分类的准确率。最后,对实现在Android系统上的短信分类器进行了实验评估,实现表明此系统有较高的分类准确率,达到了设计要求。