论文部分内容阅读
垃圾邮件的过滤是互联网时代一个重要的研究领域。邮件分类是垃圾邮件过滤的先决条件,其往往受用户主观性的影响较大,因此基于邮件内容的邮件分类技术越来越受到研究者的重视,其中文本分类技术是实现基于内容的邮件分类的重要方式。目前的中文文本分类技术大多借鉴英文的研究成果,对于中文的语言特点未多加考虑,仅仅从词语的层面提取特征项表示文本,未考虑词语之间的语法语义联系,分类准确率较低。综合以上的分析,本文结合中文的语言学特点,提出中文文本意群分类算法,并将其应用于电子邮件的分类中。本文的主要工作有如下的几个方面:(1)对文本分类和电子邮件的基础知识进行了简单的介绍,例如文本分类的流程,关键技术与分类算法原理,深入探讨中文语言构成的特点与处理难点,并对基于文本分类的邮件分类现状进行了讨论。(2)依存语法可以表达词语之间的语法关系,但目前的中文依存句法分析未进行语义的结构排歧,针对依存句法分析存在的搭配错误本文提出了融合语义的依存句法分析方法,对存在的歧义结构从语义角度对语法进行约束。实验证明了该方法提升了依存分析的准确率。(3)针对中文复句识别中忽略无标复句处理的问题进行了完善,结合条件随机场的原理,本文提出了基于中文依存句法和条件随机场的复句识别方法,并用实验验证了方法对复句识别的较高性能。(4)提出中文文本意群分类算法,首先利用融合语义的依存句法的分析结果制定了意群提取规则,进行意群提取,将意群作为表示文本的特征项;其次利用所提的复句识别方法对复句进行识别,并按照中文的理解方式对不同的复句定义了不同的复句权重,将tf.idf.IG权重算法和复句权重综合作为意群的特征权重;最后利用支持向量机的分类算法实现分类。通过实验表明了提出算法的有效性。(5)将中文文本意群分类算法应用于电子邮件分类中,并针对邮件分类的特点进行了反馈调整,增加用户个性化标准,结果表明邮件分类的意群算法查准率和查全率均达到了96%以上的良好性能。本文利用大量实验验证了意群算法的有效性,及其在邮件分类应用中的良好性能。最后对课题的工作和创新点做了总结,并提出了进一步的展望。