一种基于eEPs的中文文本自动分类算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:Andylinzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取所需要的知识和信息,人们希望能够按照内容实现对网页的自动分类。Web的迅猛发展为文本自动分类技术提供了一个前所未有的实验环境和应用平台,同时也带来了新的挑战。而作为Web网页自动分类技术基础的文本自动分类技术也迅速地发展起来。 基于文档频率的特征提取方法计算复杂度低,而且提取出的特征的分类效果也和卡方检验以及信息增益等方法相当,比较适合于大规模的文本分类任务。但是通过分析我们发现,由于仅仅使用文档频率来衡量特征的区分能力,文档频率方法存在两个问题。 显露模式是那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们对分类是有用的,这是因为这些项集能够捕获数据库中两个数据集之间的多属性差异,具有很好的分类性能。而eEPs(Essential Emerging Patterns)是一种最具表达能力的、特殊的EPs,称为基本显露模式。它不仅具有EPs的优点,可以用来构造准确的分类器,而且数量比EPs少很多,可以快速方便地挖掘和使用。 基于EPs的分类方法并不把样本看作n维空间的点,而是把它们看作项的集合。通过发现那些从一个数据集到另一个数据集支持度发生显著变化的模式(项集),建立分类器,基于EP的分类方法足以与C4.5、朴素Bayes等分类法相媲美。基于EPs的分类方法已经成功地应用于DNA分析等领域,但用于文本自动分类还未见到报道。 本文在分析了文档频率特征提取方法存在的问题的基础上,给出了特征的区分能力的概念,提出了一种基于区分能力的特征提取方法,并将基于eEPs的分类方法应用到中文文本分类领域,提出并实现了一个基于eEPs的中文文本分类算法TCEP。
其他文献
随着科学技术的迅猛发展及信息化需求程度的日益加深,软件的生产规模日益增大,应用需求不断变化,软件工程得到很大的发展。软件设计的各种难题随着各种建模思想的提出而逐渐得到
教学离不开教师和学生的交互,语音交互则是最符合人类自然习惯的一种通信交互方式。语音交互以语音合成和语音识别为基础。语音合成是将文本文件转换成语音信息。语音识别是将
随着计算机网络技术的发展,特别是互联网技术的发展,网络的应用领域越来越广泛,现代远程教育就是建立在其上的典型应用。现代远程教育也称为网络教育是把网络视为教学的工具
健壮性图着色问题(RobustGraphColoringProblem-RGCP)是经典图着色问题的一种新的扩展,它在许多领域有广泛应用。 本论文提出了一个求解小规模数据RGCP的精确解算法。通过
利用人体特征——指纹进行身份识别的技术日益成熟,应用越来越广泛。本文针对武汉警官职业学院的具体情况,设计并实现了基于指纹识别技术的考勤系统。 本文详细介绍了指纹数
随着智能手机和平板电脑的普及,推送技术在移动终端领域得到了快速发展。目前该技术需要将大量的信息推送给移动设备,在区分服务信息的问题上,可能会增加系统的推送时间;同时
在国民经济许多行业中,都会遇到板材分割问题。例如:金属制品、普通机械、专用设备、交通运输设备等制造行业的金属板材分割,家具制造业的胶合板分割,建筑和玻璃行业的平板玻
如果把人对外界的感知表示为高维空间中的点集,那么这些感知输入之间的统计相关性,在几何学上表现为数据点散布在低维光滑流形上,或在低维光滑流形附近。人能够从外界的刺激感知
工作流管理系统的主要目标是通过合理地调用和分配有关的信息及人力资源来协调业务过程中的各个活动,以促使业务目标的高效实现。在计算机和网络使用得越来越广泛的今天,工作流
计算机技术和网络技术的迅速发展,使得现代社会高度信息化。在日常生活中,使用电子装置储存重要资料的方式日渐普及。随之而来的是,信息安全受到了人们的普遍关注。当使用者