【摘 要】
:
随着Internet的迅速普及,电子邮件以其快速、便捷的优势成为了现代通信的主要手段。但人们也惊异的发现,他们的收件箱中有为数不少的垃圾邮件。本课题的研究内容是基于内容挖
论文部分内容阅读
随着Internet的迅速普及,电子邮件以其快速、便捷的优势成为了现代通信的主要手段。但人们也惊异的发现,他们的收件箱中有为数不少的垃圾邮件。本课题的研究内容是基于内容挖掘的邮件分类与过滤,它不仅可以解决垃圾邮件的过滤问题,而且可以广泛地应用于电子政务和电子商务。在电子政务和电子商务的平台上,邮件是使用十分广泛的交互手段。采用基于内容挖掘的邮件分类可以实现对每天收到的大量邮件进行自动分类和转发,有效地减少系统分发邮件的工作量。 本课题主要包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块,并且分析了各模块的核心技术和部分Java实现。论文的结构如下: 第1章:对目前的邮件分类技术进行了分析,提出了研究的主要内容。 第2章:对邮件分类器和过滤器的实现进行了总体设计,制订了它的各个功能模块及每个模块的主要功能。 第3章:讲述了邮件采集与预处理的相关内容,主要介绍了JavaMail API,并且分析了对邮件内容进行结构化解析的主要技术。 第4章:分析和比较了多种中文分词实现方法,提出了运用最大匹配法实现分词。 第5章:分析和比较了多种特征选取算法,提出了用改进后的互信息方法作为本课题的特征选取算法。 第6章:分析和比较了多种分类器的优缺点,提出了运用贝叶斯机器学习的方法,并对其用于邮件分类的原理进行了剖析,详细介绍了贝叶斯分类器的算法实现。 第7章:总结研究成果,指出不足并提出展望。
其他文献
在信息时代里,随着语音识别技术的不断发展,让机器具有“听懂”人类语言能力的研究正在一步一步成为现实。携带着大量信息的语音信号本身是非常复杂的,并且具有非平稳性、时
随着网络技术的飞速发展,尤其是WEB技术的广泛应用,同时学校网络基础设施的大力建设,学校管理的迫切需要,建立基于WEB平台的教务管理系统显得越来越重要。 本文论述了利用动态
数字签名是当前网络安全领域的研究热点。特别地,在电子商务、电子银行、电子政务等应用领域,数字签名是关键技术之一,在社会生活的各个领域也有极其广阔的应用前景。数字签名在
为了解决IP控制网关(IPCG)带宽不足的问题,本文提出了基于时间序列预测的IPCG集群,实现了基于时间序列预测的负载均衡调度算法以及基于Netfilter和策略路由的负载均衡技术。
碰撞检测及响应是计算机辅助设计与制造(CAD/CAM)、人体运动仿真、基于物理的建模、虚拟现实等领域中的基本研究问题。随着计算机仿真、虚拟现实、三维游戏的发展,三维虚拟场
秘密共享是信息安全与应用密码学领域中的重要研究方向之一。传统的秘密共享需要可信中心产生与分发秘密份额,可信中心的存在会导致“权威欺骗”问题。为了解决这一问题,无可
偏振是光的固有属性之一,也是光与物质相互作用所表现出的重要特性。它除了包含传统的光强信息外,还蕴含了丰富的环境与目标的重要信息。通过偏振成像测量光的偏振特性是常见
近年来,随着卫星定位系统(如GPS)和无线通讯技术的快速发展,跟踪并记录移动对象的位置变得可行,针对地理信息系统中最近邻查询方法的研究引起了人们越来越多的兴趣和关注,尤其是
随着计算机网络的发展,以Internet为依托的校园网络系统在全国各类学校的教学、管理工作中发挥着越来越重要的作用。本文针对中等职业技术学校校园网的应用软件需求,设计并开发
随着自然语言处理技术的不断发展,为提高信息处理系统的性能,一个迫切的需求就是能够准确地进行专有名词识别。特别在中文信息处理中,由于文本中的人名、地名等一些未登录词常被