邮件分类的意群算法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:wuheli0811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件的过滤是互联网时代一个重要的研究领域。邮件分类是垃圾邮件过滤的先决条件,其往往受用户主观性的影响较大,因此基于邮件内容的邮件分类技术越来越受到研究者的重视,其中文本分类技术是实现基于内容的邮件分类的重要方式。目前的中文文本分类技术大多借鉴英文的研究成果,对于中文的语言特点未多加考虑,仅仅从词语的层面提取特征项表示文本,未考虑词语之间的语法语义联系,分类准确率较低。综合以上的分析,本文结合中文的语言学特点,提出中文文本意群分类算法,并将其应用于电子邮件的分类中。本文的主要工作有如下的几个方面:(1)对文本分类和电子邮件的基础知识进行了简单的介绍,例如文本分类的流程,关键技术与分类算法原理,深入探讨中文语言构成的特点与处理难点,并对基于文本分类的邮件分类现状进行了讨论。(2)依存语法可以表达词语之间的语法关系,但目前的中文依存句法分析未进行语义的结构排歧,针对依存句法分析存在的搭配错误本文提出了融合语义的依存句法分析方法,对存在的歧义结构从语义角度对语法进行约束。实验证明了该方法提升了依存分析的准确率。(3)针对中文复句识别中忽略无标复句处理的问题进行了完善,结合条件随机场的原理,本文提出了基于中文依存句法和条件随机场的复句识别方法,并用实验验证了方法对复句识别的较高性能。(4)提出中文文本意群分类算法,首先利用融合语义的依存句法的分析结果制定了意群提取规则,进行意群提取,将意群作为表示文本的特征项;其次利用所提的复句识别方法对复句进行识别,并按照中文的理解方式对不同的复句定义了不同的复句权重,将tf.idf.IG权重算法和复句权重综合作为意群的特征权重;最后利用支持向量机的分类算法实现分类。通过实验表明了提出算法的有效性。(5)将中文文本意群分类算法应用于电子邮件分类中,并针对邮件分类的特点进行了反馈调整,增加用户个性化标准,结果表明邮件分类的意群算法查准率和查全率均达到了96%以上的良好性能。本文利用大量实验验证了意群算法的有效性,及其在邮件分类应用中的良好性能。最后对课题的工作和创新点做了总结,并提出了进一步的展望。
其他文献
伴随着互联网等各种各样通讯技术的飞速发展,使信息共享变得越来越容易。国家、企业及个人可以更加容易的搜集到自己所需的有用信息。与此同时随着数据挖掘以及数据发布的应用
少数民族预科英语的分层教学是依据少数民族学生具体情况和个体差异,有差别、分层次教学,真正做到因材施教.一方面,分层教学使每一个学生都能扬长避短,英语成绩在原有基础上
个性化推荐系统是一种新型的以用户为中心的主动的知识获取平台。现阶段由于反映用户兴趣模型的数据不够充分真实,待推荐论文的质量没有保证,不能为用户发现新的兴趣,导致现
近日,国家发布了《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》),提出要推进土地要素市场化配置、引导劳动力要素合理畅通有序流动、推进资本要素市
期刊
中美贸易战以来,美国政府通过加强对中国的出口管制,设置了一系列技术壁垒.在此环境下,本文基于技术壁垒分析,采用专利对比分析法、 词频逆文档法和内容分析法,找出中国航空
随着图像检索技术的发展,检索结果重排和多特征融合技术受到广泛关注。大多数之前的研究主要考虑图像之间的相似度以及利用图方法提高检索效果。然而,真实世界的流形空间十分复